<p>
<font size='5' face='Georgia, Arial'>IIC-2233 Apunte Programación Avanzada</font><br>
<font size='1'>&copy; 2015 Karim Pichara - Christian Pieringer. Todos los derechos reservados.</font>
<font size='1'>Modificado por el cuerpo docente 2017-2, 2018-1, 2018-2 y 2019-2.</font>
</p>

# *Regular Expressions*

Hasta ahora cada vez que necesitamos procesar la información contenida en *strings* lo hemos hecho mediante los mismos métodos que la clase `str` nos provee. Esto es fácil cuando el texto que analizamos es relativamente simple. Por ejemplo, si queremos separar un *string* de acuerdo a un caracter especial solo deberíamos escribir `string.split('caracter')`; o bien si necesitamos buscar una secuencia dentro de un *string* cualquiera podemos usar el método `find()`. Sin embargo, cuando la información está contenida en *strings* complejos o bien cuando necesitamos buscar múltiples secuencias dentro del *string*, existe una forma más eficiente y poderosa que consiste en describir patrones de búsqueda.

Estos patrones de búsqueda se conocen como **expresiones regulares** ó **regex** ó **RE**. Las expresiones regulares corresponden a secuencias especiales de caracteres que nos permiten comparar y buscar *strings* o conjuntos de *strings*. Las expresiones regulares se definen como un patrón y se describen a través de una sintaxis especializada. Algunos ejemplos de situaciones que pueden ser resueltas usando expresiones regulares son: validación de formularios, búsqueda y reemplazo, transformación de texto, y procesamiento de registros (*logs*).

Las expresiones regulares fueron propuestas el año 1956 por el matemático [Stephen Kleene](https://en.wikipedia.org/wiki/Stephen_Cole_Kleene), y hoy en día son bastante comunes por lo que varios lenguajes de programación permiten su uso.

Las expresiones regulares permiten especificar un conjunto de *strings* que hacen *match* con ella. Cada caracter en una expresión regular hace *match* exactamente con el carácter correspondiente de un *string*. Por ejemplo, la expresión regular `abcde` permite hacer *match* únicamente con el *string* `abcde`. Esto no parece muy poderoso pues hemos especificado exactamente el mismo *string* que queríamos reconocer. Sin embargo, las expresiones regulares utilizan algunos carácteres especiales, denominados **meta-caracteres** para especificar patrones más generales. Los meta-caracteres son: ```. ^ $ * + ? { } [ ] \ | ( )```, y su significado es el siguiente:

- **```[ ]```** permite especificar *clases de caracteres*. Por ejemplo, la expresión regular ```[abc]``` permite hacer *match* con cada uno de los *strings* `a`, `b` ó `c`. Los meta-caracteres no funcionan dentro de la especificación de una clase de caracteres. Por ejemplo, la expresión regular ```[abc$]``` permite hacer *match* con cada uno de los *strings* `a`, `b`, `c` ó `$`. También es posible utilizar `-` dentro de una *clase* de carácteres para definir un rango de caracteres. Por ejemplo, ```[a-p]``` permite hacer *match* con un *string* que corresponda a cualquiera de los caracteres entre `a` y `p` (inclusive). Un manera sencilla de describir una expresión regular que haga *match* con cada letra ó número del alfabeto inglés es ```[a-zA-Z0-9]```. Si el grupo al interior de la clase empieza con `^`, el *match* se hará con cualquier caracter excepto los de la clase (es decir,`[^abc]` hará *match* con cualquier caracter excepto `a`, `b` y `c`).

- **```+```** permite indicar que una expresión regular se puede repetir una o más veces. Por ejemplo, ```ab+c``` permite hacer *match* con `abc`, `abbc`, `abbbc`, etc, pero no con `ac`. De la misma manera, `a[bc]+d` permite hacer *match* con `abd`, `acd`, `abbd`, `abcd`, `acbd`, `accd`, `abbbd`, etc., dado que el meta-caracter se aplica sobre la clase `[bc]`.

- **```*```** permite indicar que una expresión regular se puede repetir cero o más veces. Por ejemplo, ```ab*c``` permite hacer *match* con `ac`, `abc`, `abbc`, `abbbc`, etc. Si usamos una clase de caracteres, `a[bc]*d` permite hacer *match* con el mismo conjunto descrito por `a[bc]+d`, y también con `ad`.

- **```?```** permite indicar que la expresión regular definida en el patrón puede estar exactamente una vez, o no estar. Por ejemplo, `ab?c` permite hacer *match* solamente son `ac` y con `abc`.

- **```{m, n}```** permite  indicar que la expresión regular definida puede repetirse entre *m* y *n* veces, inclusive. También puede ser una cantidad fija *m* para indicar exactamente *m* veces. Por ejemplo, `ab{3,5}c` permite hacer *match* con `abbbc`, `abbbbc`, y con `abbbbbc`. Por otro lado, `ab{2}c` solo permite hacer *match* con `abbc`.

- **```.```** permite especificar un *match* con cualquier carácter, excepto un salto de línea. Por ejemplo, la expresión `.+` permite hacer *match* con cualquier *string* de largo mayor o igual a 1.

- `^` permite especificar la expresión de inicio del *string*.

- `$` permite especificar la expresión de término del *string*.

- **```( )```** permitir delimitar una expresión regular y definir _grupos_ dentro de ella. Por ejemplo, `a(bc)*(de)f` permite hacer *match* con `adef`, `abcdef`, `abcbcdef`, `abcbcbcdef`, etc.

- *A* `|` *B* es un operador binario que permite especificar que se puede hacer *match* con la expresión regular *A*, o con la expresión regular *B*. Por ejemplo `ab+c|de*f` permite hacer _match_ con `abc`, `abbc`, `abbbc`, ..., `df`, `def`, `deef`, `deeef`, etc.

- **```\```** permite indicar que los meta-caracteres debe ser considerados como parte del patrón y no como meta-caracteres.



Python provee el módulo `re` para el uso de expresiones regulares. Dentro de las funciones disponibles en el módulo `re` de Python se encuentran:

- `re.match()` verifica si un *substring* cumple con la expresión regular a partir del inicio del *string*.
- `re.fullmatch()` verifica si el *string* completo cumple con la expresión regular
- `re.search()` verifica si algún *substring* cumple con la expresión regular.
- `re.sub()` permite reemplazar un patrón por otra secuencia de caracteres en un *string*.
- `re.split()` permite separar un *string* de acuerdo a un patrón.

### *Matching*

Las expresiones regulares son fuertemente utilizadas en operaciones de comparación o *matching*. A continuación revisaremos algunos ejemplos y sus resultados.

In [1]:
# Para cargar el módulo re
import re

In [2]:
# Definimos un conjunto de secuencias que necesitamos verificar si cumplen con 
# un patrón.
seq = ["4tt", "4ttGb", "4ttabcabc32", "4tssssghj3", "44ttkbcdag60", "4ttabcfgh41", "3ttabc4ttyb"]
# El patrón que ocuparemos es '4tt.b'
# (notar el uso de '.', es decir, cualquier caracter en esa posición)

print("----------- Búsqueda con re.match() -----------")
# Verifica si algun substring cumple con la expresión regular desde el inicio del string
for s in seq:
    print(re.match('4tt.b', s))
print("\n----------- Búsqueda con re.search() ----------")
# Verifica si algún substring cumple con la expresión regular desde cualquier posicion
for s in seq:
    print(re.search('4tt.b', s))
print("\n----------- Búsqueda con re.fullmatch() ----------")
# Verifica si el string completo cumple con la expresión regular (de principio a fin)
for s in seq:
    print(re.fullmatch('4tt.b', s))

----------- Búsqueda con re.match() -----------
None
<_sre.SRE_Match object; span=(0, 5), match='4ttGb'>
<_sre.SRE_Match object; span=(0, 5), match='4ttab'>
None
None
<_sre.SRE_Match object; span=(0, 5), match='4ttab'>
None

----------- Búsqueda con re.search() ----------
None
<_sre.SRE_Match object; span=(0, 5), match='4ttGb'>
<_sre.SRE_Match object; span=(0, 5), match='4ttab'>
None
<_sre.SRE_Match object; span=(1, 6), match='4ttkb'>
<_sre.SRE_Match object; span=(0, 5), match='4ttab'>
<_sre.SRE_Match object; span=(6, 11), match='4ttyb'>

----------- Búsqueda con re.fullmatch() ----------
None
<_sre.SRE_Match object; span=(0, 5), match='4ttGb'>
None
None
None
None
None


El patrón que estamos utilizando es `4tt.b`. Al buscar con `match` la búsqueda se efectúa desde el inicio del *string*, y al buscar con `search` la búsqueda se efectúa en cualquier parte del *string*. Al buscar con `fullmatch` se verifica si todo el *string* cumple con la expresión regular.

La búsqueda con `match` es equivalente a haber especificado `re.search('^4tt.b', s)`, ya que el meta-carácter `^` indica que el patron debe encontrarse al inicio del *string*.

Tanto `match` como `search` y `fullmatch` retornan **un** objeto de tipo `Match`, donde algunos de sus atributos son:

- `span`: tupla que indica el inicio y término del patrón encontrado en el *string*. Notar que en el caso de `match`, éste siempre empieza en la posición 0.
- `group(índice)`: cuando `índice` se omite o es `0`, retornar el *substring* que hizo *match* con el patrón, y que aparece en el campo `match`. Cuando `índice` es mayor a `0`, retorna el *substring* que hizo *match* con uno de los grupos de la expresión regulares, cuando ésta define grupos usando `()`.

El resultado de `match()` puede ser utilizado directamente como condición de sentencias `if`, `while`, etc. En el siguiente ejemplo verificaremos si las secuencias en `seq` cumplen con el patrón de tener la sub-secuencia caracteres `4tt.b` al comienzo de la secuencia. 

In [3]:
seq = ["4tt", "4ttGb", "4ttabcabc32", "4tssssghj3", "44ttkbcdag60", "4ttabcfgh41", "3ttabc4ttyb"]
for s in seq:    
    if re.match('^4tt', s):
        print(f"{s} cumple con el patrón")

4tt cumple con el patrón
4ttGb cumple con el patrón
4ttabcabc32 cumple con el patrón
4ttabcfgh41 cumple con el patrón


Ahora modificaremos el patrón para que permita detectar repeticiones de un grupo de caracteres. Para esto incorporaremos al patrón utilizado un grupo de caracteres como `(abc)`.

In [4]:
seq = ["4tt", "4ttGb", "4ttabcabc32", "4tssssghj3", "44ttkbcdag60", "4ttabcfgh41", "3ttabc4ttyb"]
for s in seq:
    if re.match('^4tt(abc)', s):
        print(f"{s} cumple con el patrón")

4ttabcabc32 cumple con el patrón
4ttabcfgh41 cumple con el patrón


In [5]:
for s in seq:
    # Indicaremos con los '{ }' el número de veces que el grupo debe estar presente.
    # Como vemos, por defecto se asume que puede estar 1 o más veces.
    if re.match('^4tt(abc){2}', s):
        print(f"{s} cumple con el patrón")

4ttabcabc32 cumple con el patrón


#### Verificación de *e-mail*

Veamos ahora como podemos usar esto para asegurarnos de que una dirección de correo electrónico cumpla con un determinado formato. Las direcciones que admitiremos pueden tener cualquier tipo de caracter antes de la `@` y pertenecer a los dominios `mail.cl` o `mimail.cl`, y también a cualquiera de las direcciones que incluyan a este dominio, específicamente `seccion1.mimail.cl`, `seccion2.mimail.cl`. Para construir el patrón que nos permitirá verificar las direcciones, debemos hacerlo de la siguiente forma:

1. Al comienzo debemos incluir los meta-caracteres `[a-zA-Z0-9_.]+`. Con esto estamos indicando que la cadena que vamos a ingresar contendrá 1 o más (`+`) caracteres entre letras mayúsculas y minúsculas, números o bien los caracteres `_` o `.`, especificados en la clase mediante "`[ ]`";
2. Luego irá el símbolo `@`;
3. A continuación debemos indicar que podría o no existir (`?`) los subdominios `((seccion1|seccion2)\.)?`, seguidos de un `.`. En este caso debemos usar el meta-caracter `\` para asegurarnos que el meta-caracter `.` sea considerado como punto.
4. Finalmente, debemos verifcar que esté presente el dominio del correo incluyendo en el patrón `(mi)?mail\.cl`, indicando que la secuencia `mi` puede estar o no (`?`) en el dominio. Otra forma de escribir la misma regla es creando el grupo `(mimail|mail)\.cl`.

In [6]:
def es_mail_valido(email):
    # Recordar que el método 'match()' retorna un objeto de tipo 'Match' que al ser
    # usado en sentencias como IF y WHILE representa un valor lógico. Podemos hacer
    # que una función retorne un valor lógico de la operación de match haciendo la
    # conversión a bool.
    #
    # Otra forma de escribir el patrón es:
    # pattern = "[a-zA-Z0-9_.]+@((seccion1|seccion2)\.)?(mi)?mail.cl"
    patron = "[a-zA-Z0-9_.]+@((seccion1|seccion2)\.)?(mimail|mail)\.cl"
    return bool(re.fullmatch(patron, email))

# Las direcciones de correo tienen consistencia con el patrón utilizado
print(es_mail_valido('nombre.apellido@mail.cl'))
print(es_mail_valido('nombre_aprellido@mimail.cl'))
print(es_mail_valido('nombre1010@seccion1.mimail.cl'))
print(es_mail_valido('nombre1010@seccion2.mail.cl'))

# Estos los correos incluyen elementos no considerados en el patrón
print(es_mail_valido('nombre1010@tumail.cl'))
print(es_mail_valido('nombre101-@tumail.cl'))
print(es_mail_valido('nombre101@maillcl'))
print(es_mail_valido('nombre101@mail.cll'))
print(es_mail_valido('nombre101@seccion3.tumail.cl'))

True
True
True
True
False
False
False
False
False


#### Verificación de RUT

Veamos otro ejemplo que consiste en verificar que el RUT ingresado en un campo de un formulario tenga el formato especificado como: ##.###.###-#, que es una secuencia de números separados por puntos y el dígito verificador separado por guión. Para este ejemplo vamos a considerar que el RUT más pequeño es `1.000.000-0`, y que el digito verificador puede ser un dígito desde `0` hasta `9`, o la letra "k" minúscula o mayúscula. No verificaremos la validez del dígito verificador. La estructura del patrón entonces quedaría definida de la siguiente forma:

1. Al comienzo, incluiremos la regla que indica que puede existir entre uno o dos caracteres numéricos seguidos de un "`.`". Esto lo indicamos como  `[0-9]{1,2}\.`. Dentro de "`[]`" estamos incluyendo la clase de caracteres numéricos y en "`{1,2}`" estamos indicando que habrá entre uno y dos caracteres en esta sección antes del punto;
2. Después, incluímos los siguientes tres caracteres numéricos, seguidos por un punto. Lo indicamos como `[0-9]{3}\.`;
3. Luego, indicamos que debe haber obligatoriamente 3 dígitos seguidos de un guión `[0-9]{3}-`;
4. Finalmente, consideramos que haya un dígito entre 0 y 9, o bien la letra k mayúscula o minúscula: `([0-9kK])`.

In [7]:
def es_rut_valido(rut):
    # Uno o dos dígitos, un punto, 3 dígitos, un punto, 3 dígitos, y un dígito, 'k' o 'K'
    pattern = "[0-9]{1,2}\.[0-9]{3}\.[0-9]{3}-([0-9kK])"
    return bool(re.fullmatch(pattern, rut))

# Casos válidos para el patrón
print(es_rut_valido('12.224.877-2'))
print(es_rut_valido('12.745.331-k'))
print(es_rut_valido('19.235.312-K'))
print(es_rut_valido('1.113.221-2'))

# Casos no válidos para el patrón
print(es_rut_valido('13.427.974-a'))
print(es_rut_valido('13.427.974-a'))
print(es_rut_valido('113.427.974-1'))
print(es_rut_valido('ab.111.444-0'))
print(es_rut_valido('13.20.830-6'))
print(es_rut_valido('113.427.974-12'))

True
True
True
True
False
False
False
False
False
False


Existen abreviaciones prestablecidas para ciertas clases de caracteres. Por ejemplo:

- `\d`: equivale a `[0-9]`;
- `\D`: es equivalente a `[^0-9]`, donde se compara con cualquier caracter que no sea dígito; 
- `\s`: equivale a hacer `[\t\n\r\f\v]`, compara cualquier tipo de espacio en blanco;
- `\S`: equivale a escribir la clase `[^\t\n\r\f\v]`, que compara con cualquier caracter distinto a los espacios en blanco;
- `\w`: es equivalente a la clase `[a-zA-Z0-9\_]`, donde se compara con cualquier caracter alfa numérico;
- `\W`: equivale a `[^a-zA-Z0-9\_]`, que contempla que no haya ningún caracter alfa numérico.

De esta forma podríamos escribir el patrón para comprobar el RUT de la siguiente forma equivalente:

In [8]:
def es_rut_valido(rut):
    # Uno o dos dígitos, un punto, 3 dígitos, un punto, 3 dígitos, y un dígito, 'k' o 'K'
    pattern = "\d{1,2}\.\d{3}\.\d{3}-(\d|k|K)"
    return bool(re.fullmatch(pattern, rut))

# Casos válidos para el patrón
print(es_rut_valido('12.224.877-2'))
print(es_rut_valido('12.745.331-k'))
print(es_rut_valido('19.235.312-K'))
print(es_rut_valido('1.113.221-2'))

# Casos no válidos para el patrón
print(es_rut_valido('13.427.974-a'))
print(es_rut_valido('13.427.974-a'))
print(es_rut_valido('113.427.974-1'))
print(es_rut_valido('ab.111.444-0'))
print(es_rut_valido('13.20.830-6'))
print(es_rut_valido('113.427.974-12'))

True
True
True
True
False
False
False
False
False
False


### Búsqueda

La búsqueda es otra de las tareas donde comúnmente se utilizan expresiones regulares. En este caso el módulo `re` permite tres formas de búsqueda:

- `search()`: busca en una secuencia cualquier posición donde el patrón coincida, y retorna la primera coincidencia.
- `findall()`: Encuentra todas las sub-secuencias donde el patrón coincida, y las retorna como una lista.
- `finditer()`: opera como `findall()`, pero retorna un iterador.

Volvamos al ejemplo de las secuencias usadas anteriormente y busquemos en ellas donde aparece la subsecuencia "ab":

In [9]:
seq = ["4tt", "4ttGb", "4ttabcabc32", "3ssafjabc3", "4tssssghj3", "44ttkbcdag60", "4ttabcfgh41", "3ttabc4ttyb", "3tt4ttSbc4ttyb"]

for s in seq:
    first_match = re.search('(ab)', s)
    print(f'secuencia {s}: {first_match}')

secuencia 4tt: None
secuencia 4ttGb: None
secuencia 4ttabcabc32: <_sre.SRE_Match object; span=(3, 5), match='ab'>
secuencia 3ssafjabc3: <_sre.SRE_Match object; span=(6, 8), match='ab'>
secuencia 4tssssghj3: None
secuencia 44ttkbcdag60: None
secuencia 4ttabcfgh41: <_sre.SRE_Match object; span=(3, 5), match='ab'>
secuencia 3ttabc4ttyb: <_sre.SRE_Match object; span=(3, 5), match='ab'>
secuencia 3tt4ttSbc4ttyb: None


Al igual que el método `match()`, el método `search()` retorna un objeto indicando la posición de la coincidencia. Si no encuentra alguna coincidencia retorna `None`.

Veamos un ejemplo donde podamos recuperar un listado con todos las subsecuencias de valores numéricos que estén en las secuencias:

In [10]:
seq = ["4tt", "4ttGb", "4ttabcabc32", "3ssafjabc3", "4tssssghj3", "44ttkbcdag60", "4ttabcfgh41", "3ttabc4ttyb", "3tt4ttSbc4ttyb"]

for s in seq:
    all_matches = re.findall('\d+', s)
    print(f'secuencia {s}: {all_matches}')

secuencia 4tt: ['4']
secuencia 4ttGb: ['4']
secuencia 4ttabcabc32: ['4', '32']
secuencia 3ssafjabc3: ['3', '3']
secuencia 4tssssghj3: ['4', '3']
secuencia 44ttkbcdag60: ['44', '60']
secuencia 4ttabcfgh41: ['4', '41']
secuencia 3ttabc4ttyb: ['3', '4']
secuencia 3tt4ttSbc4ttyb: ['3', '4', '4']


### Sustitución

La modificación de secuencias es también otra de las tareas en que las expresiones regulares son de gran ayuda. El módulo `re` provee el método `sub(<patron>, <reemplazar por>, secuencia)` que nos permite hacer sustitución de acuerdo al patrón indicado. Por ejemplo, eliminaremos todos los números en las secuencias usadas en los ejemplos anteriores:

In [11]:
for s in seq:
    # sub retorna un nuevo valor, por lo tanto, no modifica la secuencia original
    result = re.sub('\d+', '', s)
    print(f'Secuencia {s} queda como {result}')

Secuencia 4tt queda como tt
Secuencia 4ttGb queda como ttGb
Secuencia 4ttabcabc32 queda como ttabcabc
Secuencia 3ssafjabc3 queda como ssafjabc
Secuencia 4tssssghj3 queda como tssssghj
Secuencia 44ttkbcdag60 queda como ttkbcdag
Secuencia 4ttabcfgh41 queda como ttabcfgh
Secuencia 3ttabc4ttyb queda como ttabcttyb
Secuencia 3tt4ttSbc4ttyb queda como ttttSbcttyb


En vez de usar un valor a sustituir, podemos también incluir una función donde podamos utilizar una regla de sustitución más compleja. Por ejemplo, procesemos una secuencia de ADN con bases "A", "T" y "C" reemplazándolas por sus bases complementarias:

In [12]:
def bases(base):
    # A la función entra un objeto tipo Match. Debemos recuperar el 
    # valor de la coincidencia haciendo group(0) ya que sabemos que 
    # con el patrón utilizado nos llegará solo una coincidencia.
    mapping = {'A': 'T', 'G': 'C', 'T': 'A', 'C':'G'}
    return mapping[base.group(0)]

adn = 'ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCG'
print(adn)
print(re.sub('[ATCG]', bases, adn))

ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCG
TGTTCTACGGTAACAGGGGGCCGGAGGACGACGACGACGAGAGGCCCCGGTGCCGGTGGC


### `split`

Para separar una secuencia por el caracter `e` podemos usar el método `split()` de los objetos `str`. Esto quedaría como siguiente ejemplo:

In [13]:
msg = "Este es un mensaje simple que vamos a procesar ehh!"
print(msg.split('e'))

['Est', ' ', 's un m', 'nsaj', ' simpl', ' qu', ' vamos a proc', 'sar ', 'hh!']


Podemos realizar el mismo procesamiento usado el módulo `re` de la siguiente forma:

In [14]:
msg = "Este es un mensaje simple que vamos a procesar ehh!"
re.split('e', msg)

['Est', ' ', 's un m', 'nsaj', ' simpl', ' qu', ' vamos a proc', 'sar ', 'hh!']

El método `split()`require como argumentos un string con el patrón y el string donde vamos aplicar ese patrón. Hasta ahora ambos métodos nos entregan el mismo resultado. Para casos simples de procesamiento solo bastaría el uso de los métodos propios de la clase `str()` y dejar `re` para tareas más complejas.

In [15]:
# Divimos sacando solo las vocales. Los patrones regules son case sensitive
print(re.split('[aeiou]', msg))

['Est', ' ', 's ', 'n m', 'ns', 'j', ' s', 'mpl', ' q', '', ' v', 'm', 's ', ' pr', 'c', 's', 'r ', 'hh!']


Volvamos al ejemplo de la secuencia de ADN. Supongamos que necesitamos dividir una secuencia dada usando los tripletas de genes (*codones*). La implementación mediante expresiones regulares para separar la siguiente secuencia usando las tripleras *GGG* y *GGA* sería:

In [16]:
adn = "AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGA" + \
"ACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAACCAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCC" + \
"ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGACGCGTACAGGAAACACAGAAAAAAG"

re.split('(?:GGG|GGA)', adn)

['AGCTTTTCATTCTGACTGCAAC',
 'CAATATGTCTCTGTGT',
 'TTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAACCAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGC',
 'CTGACGCGTACA',
 'AACACAGAAAAAAG']

En este caso hemos incorporado los meta-caracteres `?:` para indicar que vamos a buscar cualquiera de los grupos de  expresiones dentro de los paréntesis, pero que las subsecuencias que coincidan no serán retornadas después realizar la búsqueda. Esto permite que `split` solo retorne las secuencias producto de la división. Esto se conoce como *non-capturing version*.

Los conceptos vistos en este material corresponden a los usos básicos que pueden dar a las expresiones regulares. Les recomendamos revisar la documentación de Python para [expresiones regulares](https://docs.python.org/3/library/re.html) y [HOWTO](https://docs.python.org/3/howto/regex.html#regex-howto), para tener mayor detalle de cada método en el módulo `re` y conocer otros casos de uso. También pueden verificar las expresiones regular que escriban usando sitios como [http://pythex.org/](http://pythex.org/)