# Módulo de análisis de sistemas de splicing simples

El sistema de **splicing** se desarrolló como un modelo matemático de sistemas de enzimas de restricción que actúan sobre
Moléculas de ADN. Las moléculas de ADN pueden ser cortadas por enzimas de restricción en una secuencia particular de nucleótidos. Las moléculas que pueden surgir de un sistema de **splicing** se denominan lenguaje de **splicing**. 

### Splicing System and Splicing Language

Un sistema de splicing **S = (A, I, B, C)** consiste en un alfabeto finito **A**, un conjunto finito  incicial de cadenas **I** en **A***, y conjuntos finitos **B** y **C** de triples **(c, x, d)** con **c**, **x** y **d** en **A***. Cada uno de esos triples en **B** ó **C** se llama patrón. **L(S)** es el lenguaje generado por un sistema de splicing **S** que consiste
de las cadenas en **I** y todas las cadenas que se pueden obtener uniendo las palabras ucxfq y pexdv a **L** siempre que
ucxdv y pexfq están en **L**.

### Simple Splicing System and Simple Splicing Language

Sea **S = (A, I, R)** un sistema de splicing en el que todas las reglas en **R** tienen la forma **(a, 1; a, 1)**, donde **a** está en **A**. Entonces **S** es llamado sistema de splicing simple. Un lenguaje de splicing **L** se dice que es un lenguaje de splicing simple si **L** puede ser generado por un sistema de splicing simple.

### Regular

Un lenguaje **L** se llama regular si y solo si existe un **accepter** finito determinista **M** tal que **L = L(M)**.


## Desarrollo


Para desarrollar el modulo de análisis se tuvieron en cuenta los ejemplos expuestos en el articulo **Recognition of Simple Splicing Systems using SHAutomaton**, donde existe un sistema de **splicing** con solo una cadena en I y una regla en R:


L(A, I, R)

A = {a,b}

I = {aaabaa}

R = {b}

El objetivo de la herramienta es determinar la expresión regular de una determinada cadena de texto ingresada

In [1]:
A = ['a', 'b']
R = ['b']

La función **existeEnEAlfabeto** determina si la cadena pertenece al alfabeto

In [2]:
def existeEnEAlfabeto(cadena):
    notIn = False
    for letra in cadena:
        if letra not in A:
            notIn = True
            break
    return notIn

La función **aplicaReglas** determina si se cumplen las reglas

In [3]:
def aplicaReglas(cadena):
    notIn = False    
    for letra in cadena:
        if R[0] == letra:
            notIn = True
            break
    return notIn

La función **frecuencias** determina cuantas veces se repite una letra de forma consecutiva

In [4]:
def frecuencias(cadena):
    frecuencia = []
    before = cadena[0]
    cuenta = 1
    for i in range(1, len(cadena)):
        if before == cadena[i]:
            cuenta += 1
        else:
            frecuencia.append(cadena[i - 1])
            frecuencia.append(cuenta)
            cuenta = 1
        before = cadena[i]
        if i == len(cadena) - 1:
            frecuencia.append(cadena[i])
            frecuencia.append(cuenta)
    return frecuencia

La función **obtenerPrimero** determina cual es el primer carácter de la cadena

In [5]:
def obtenerPrimero(frecuencia):
    primero = []
    if frecuencia[0] == 'a':
        primero.append(frecuencia[1])
    primero = list(dict.fromkeys(primero))
    primero.sort()
    return primero

La función **obtenerUltimo** determina cual es el ultimo carácter de la cadena

In [6]:
def obtenerUltimo(frecuencia):
    ultimo = []
    if frecuencia[-2] == 'a':
        ultimo.append(frecuencia[-1])
    ultimo = list(dict.fromkeys(ultimo))
    ultimo.sort()
    return ultimo

La función **obtenerInternos** busca y determina cuantas veces se repiten los caracteres internos de la cadena

In [7]:
def buscarInternos(frecuencia, k, limit, busca):
    internos = []
    if frecuencia[0] != 'b':
        k += 2
    for i in range(k, len(frecuencia) - limit, 4):
        if frecuencia[i] == busca:
            internos.append(frecuencia[i + 1])
    return list(dict.fromkeys(internos))


def obtenerInternos(frecuencia, k, limit, busca):
    histograma = list(dict.fromkeys(buscarInternos(frecuencia, k, limit, busca)))
    histograma.sort()
    return histograma

La función **seRepite** determina si el carácter que le precede debe aparecer al menos una vez

In [8]:
def seRepite(histograma):
    if histograma:
        mas = True if histograma[-1] > 1 else False
    else:
        mas = False
    return mas

La función **expresionRegular** calcula la expresión regular correspondiente a la cadena

In [9]:
def expresionRegular(primero, interno, ultimo, mas, asterisco=True):
    inicia = ''
    for s in primero:
        inicia += s * 'a'
        inicia += '+'
    inicia = inicia[:-1]

    enmedio = ''
    if mas:
        enmedio += 'b+'
    for s in interno:
        enmedio += s * 'a'
        enmedio += 'b+'
    enmedio = enmedio[:-1]

    finaliza = ''
    for s in ultimo:
        finaliza += s * 'a'
        finaliza += '+'
    finaliza = finaliza[:-1]

    expresion = ''
    if inicia is not '':
        expresion = '(' + inicia + ')'
    if expresion:
        expresion += 'b'
    if enmedio is not '':
        expresion += '(' + enmedio + ')'
    if asterisco:
        expresion += '*'
    if finaliza is not '':
        expresion += '(' + finaliza + ')'
    return expresion

### Función principal

In [10]:
def verificarCadena(cadena):
    if type(cadena) is str:
        print(f'Cadena "{cadena}"')
        if not existeEnEAlfabeto(cadena):
            if aplicaReglas(cadena):
                frecuencia = frecuencias(cadena)
                primero = obtenerPrimero(frecuencia)
                interno = obtenerInternos(frecuencia, 2, 2, 'a')
                ultimo = obtenerUltimo(frecuencia)
                mas = seRepite(obtenerInternos(frecuencia, 0, 0, 'b'))
                print(f'La espresión regular de la cadena es: {expresionRegular(primero, interno, ultimo, mas, True)}')
                print()
            else:
                print('No se cumple con las reglas')
                print()
        else:
            print('La cadena no pertenecece al lenguaje')
            print()
    else:
        print('La cadena no es un lenguaje')
        print()

In [11]:
verificarCadena('aabaaaaabaaabaa')

Cadena "aabaaaaabaaabaa"
La espresión regular de la cadena es: (aa)b(aaab+aaaaab)*(aa)



In [12]:
verificarCadena('ababababababababababa')

Cadena "ababababababababababa"
La espresión regular de la cadena es: (a)b(ab)*(a)



In [13]:
verificarCadena('abaaabaa')

Cadena "abaaabaa"
La espresión regular de la cadena es: (a)b(aaab)*(aa)



In [14]:
verificarCadena('bbaaaba')

Cadena "bbaaaba"
La espresión regular de la cadena es: (b+aaab)*(a)



In [15]:
verificarCadena('aba')

Cadena "aba"
La espresión regular de la cadena es: (a)b*(a)



In [16]:
verificarCadena('aaa')

Cadena "aaa"
No se cumple con las reglas



In [17]:
verificarCadena('aad')

Cadena "aad"
La cadena no pertenecece al lenguaje

