# Clase Nro. 1 SB - Expresiones Regulares

1. Importar el módulo regex con `import re`.
2. Crear un objeto Regex con la función `re.compile()`. (Recuerde usar una cadena en crudo).
3. Pase la cadena que desea buscar en el método `search()` del objeto Regex. Esto devuelve un objeto `Match`.
4. Llame al método `group()` del objeto Match para devolver una cadena del texto real emparejado.


Todas las funciones regex en Python están en el módulo re:

In [None]:
import re

### Objetos Regex que concuerdan

In [None]:
phone_num_regex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo = phone_num_regex.search('My number is 415-5557-4242.')
print(mo)
#print('Phone number found: {}'.format(mo.group()))

### Agrupación con paréntesis

In [None]:
phone_num_regex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
mo = phone_num_regex.search('My number is 415-555-4242.')
mo.group(1)

In [None]:
mo.group(2)

In [None]:
mo.group(0)

In [None]:
mo.group()

Para recuperar todos los grupos a la vez: use el método "groups()" - anote la forma plural del nombre.

In [None]:
mo.groups()
area_code, main_number = mo.groups()

In [None]:
print(area_code)

In [None]:
print(main_number)

### Emparejando múltiples grupos con |

El caracter se llama pipe. Puedes usarlo donde quieras para que coincida con una de las muchas expresiones. Por ejemplo, la expresión regular r'Batman|Tina Fey' coincidirá con 'Batman' o 'Tina Fey'.

In [None]:
hero_regex = re.compile (r'Batman|Tina Fey')
mo1 = hero_regex.search('Batman and Tina Fey.')
mo1.group()

In [None]:
mo2 = hero_regex.search('Tina Fey and Batman.')
mo2.group()

También puedes usar el **pipe** para hacer coincidir uno de los varios patrones como parte de tu regex:

In [None]:
bat_regex = re.compile(r'Bat(man|mobile|copter|bat)')
mo = bat_regex.search('Batmobile lost a wheel')
mo.group()

In [None]:
mo.group(1)

### Coincidencia opcional con el signo de interrogación

El caracter ? marca el grupo que lo precede como una parte opcional del patrón.

In [None]:
bat_regex = re.compile(r'Bat(wo)?man')
mo1 = bat_regex.search('The Adventures of Batman')
mo1.group()

In [None]:
mo2 = bat_regex.search('The Adventures of Batwoman')
mo2

### Emparejar cero o más con la estrella

El * (llamado estrella o asterisco) significa "coincidencia de cero o más". El grupo que precede a la estrella puede aparecer cualquier número de veces en el texto.

In [None]:
bat_regex = re.compile(r'Bat(wo)*man')
mo1 = bat_regex.search('The Adventures of Batman')
mo1.group()

In [None]:
mo2 = bat_regex.search('The Adventures of Batwoman')
mo2.group()

In [None]:
mo3 = bat_regex.search('The Adventures of Batwowowowoman')
mo3.group()

### Emparejar uno o más con el +

Mientras que * significa "cero o más", el + (o más) significa "uno o más". El grupo que precede a un plus debe aparecer al menos una vez. No es opcional:

In [None]:
bat_regex = re.compile(r'Bat(wo)+man')
mo1 = bat_regex.search('The Adventures of Batwoman')
mo1.group()

In [None]:
mo2 = bat_regex.search('The Adventures of Batwowowowoman')
mo2.group()

In [None]:
mo3 = bat_regex.search('The Adventures of Batman')
mo3 is None

### Emparejando repeticiones específicas con llaves {}

Si tienes un grupo que quieres repetir un número específico de veces, sigue el grupo en tu regex con un número entre paréntesis. Por ejemplo, el regex (Ha){3} coincidirá con la cadena "HaHaHa", pero no coincidirá con "HaHa", ya que esta última sólo tiene dos repeticiones del grupo (Ha).

En lugar de un número, puede especificar un rango escribiendo un mínimo, una coma y un máximo entre los corchetes. Por ejemplo, el regex (Ha){3,5} coincidirá con "HaHaHa", "HaHaHaHa", y "HaHaHaHa.

In [None]:
ha_regex = re.compile(r'(Ha){3}')
mo1 = ha_regex.search('HaHaHa')
mo1.group()

In [None]:
mo2 = ha_regex.search('Ha')
mo2 is None

### La codicia y la falta de codicia...

Las expresiones regulares de Python son codiciosas por defecto, lo que significa que en situaciones ambiguas coincidirán con la cuerda más larga posible. La versión no codiciosa de los corchetes, que coincide con la cuerda más corta posible, tiene el corchete de cierre seguido de un signo de interrogación.

In [None]:
greedy_ha_regex = re.compile(r'(Ha){3,5}')
mo1 = greedy_ha_regex.search('HaHaHaHaHa')
mo1.group()

In [None]:
nongreedy_ha_regex = re.compile(r'(Ha){3,5}?')
mo2 = nongreedy_ha_regex.search('HaHaHaHaHa')
mo2.group()

### El método findall

Además del método search(), los objetos Regex también tienen un método findall(). Mientras que search() devolverá un objeto Match del primer texto coincidente en la cadena buscada, el método findall() devolverá las cadenas de cada coincidencia en la cadena buscada.

In [None]:
phone_num_regex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') # has no groups
phone_num_regex.findall('Cell: 415-555-9999 Work: 212-555-0000')

In [None]:
phone_num_regex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)') # has no groups
phone_num_regex.findall('Cell: 415-555-9999 Work: 212-555-0000')

Para resumir lo que devuelve el método findall(), recuerda lo siguiente:

- Cuando se llama a un regex sin grupos, como el de uds., el método findall devuelve una lista de coincidencias, como ['415-555-9999', '212-555-0000'].

- Cuando se recurre a un regex que tiene grupos, como (\d\d\d)-d\d)-(\d\ d\d\d), el método findall() devuelve una lista de de cadenas (una cadena por cada grupo), como [('415', ', '9999'), ('212', '555', '0000')].

### Haciendo sus propias clases de carácter

Hay veces en las que se quiere hacer coincidir un conjunto de carácteres, pero las clases de metacaracteres (\d, \w, \s, y así sucesivamente) son demasiados amplios. Puedes definir tu propia clase de personaje usando corchetes. Por ejemplo, la clase de carácter [aeiouAEIOU] coincidirá con cualquier vocal, tanto en minúsculas como en mayúsculas.

In [None]:
vowel_regex = re.compile(r'[aeiouAEIOU]')
vowel_regex.findall('Robocop eats baby food. BABY FOOD.')

También se pueden incluir rangos de letras o números utilizando un guión. Por ejemplo, la clase de caracteres [a-zA-Z0-9] coincidirá con todas las letras minúsculas, mayúsculas y números.

Colocando un carácter (^) justo después del paréntesis de apertura de la clase de caracteres, puedes hacer una clase de caracteres negativa. Una clase de caracter negativo coincidirá con todos los caracteres que no estén en la clase de caracter. Por ejemplo, introduce lo siguiente en la concha interactiva:

In [None]:
consonant_regex = re.compile(r'[^aeiouAEIOU]')
consonant_regex.findall('Robocop eats baby food. BABY FOOD.')

### Los personajes del signo del dólar y del alfabeto

- También puede utilizar el símbolo de la caricia (^) al comienzo de una regex para indicar que debe producirse una coincidencia al principio del texto buscado.

- Del mismo modo, puede poner el signo de dólar ($) al final de la expresión para indicar que la cadena debe terminar con este patrón.

- Y puedes usar la ^ y $ juntos para indicar que toda la cadena debe coincidir con la expresión geológica, es decir, no basta con que se haga una coincidencia en algún subconjunto de la cadena.

La cadena de expresión regular r'^Hello' coincide con las cadenas que comienzan con 'Hello':

In [None]:
begins_with_hello = re.compile(r'^Hello')
begins_with_hello.search('Hello world!')

In [None]:
begins_with_hello.search('He said Hello.') is None

La cadena de expresión regular "r'\d$" coincide con cadenas que terminan con un carácter numérico del 0 al 9:

In [None]:
whole_string_is_num = re.compile(r'^\d+$')
whole_string_is_num.search('1234567890')

In [None]:
whole_string_is_num.search('12345xyz67890') is None

In [None]:
whole_string_is_num.search('12 34567890') is None

### El carácter de comodín

El carácter . (o punto) en una expresión regular se llama comodín y coincidirá con cualquier carácter excepto con una nueva línea:

In [None]:
at_regex = re.compile(r'.at')
at_regex.findall('The cat in the hat sat on the flat mat.')

### Emparejar todo con Dot-Star

In [None]:
name_regex = re.compile(r'First Name: (.*) Last Name: (.*)')
mo = name_regex.search('First Name: Some Last Name: One')
mo.group(1)

In [None]:
mo.group(2)

La estrella de puntos usa el modo codicioso: Siempre tratará de hacer coincidir la mayor cantidad de texto posible. Para emparejar cualquier y todo el texto de forma no codiciosa, usa el punto, la estrella y el signo de interrogación (.*?). El signo de interrogación le dice a Python que coincida de una manera no codiciosa:

In [None]:
nongreedy_regex = re.compile(r'<.*?>')
mo = nongreedy_regex.search('<To serve man> for dinner.>')
mo.group()

In [None]:
greedy_regex = re.compile(r'<.*>')
mo = greedy_regex.search('<To serve man> for dinner.>')
mo.group()

### Emparejar las nuevas líneas con el carácter  punto

La estrella de puntos coincidirá con todo excepto con una nueva línea. Pasando re.DOTALL como segundo argumento de re.compile(), puedes hacer que el carácter punto-estrella coincida con todos los caracteres, incluyendo el carácter de la nueva línea:

In [None]:
no_newline_regex = re.compile('.*')
no_newline_regex.search('Serve the public trust.\nProtect the innocent.\nUphold the law.').group()

In [None]:
newline_regex = re.compile('.*', re.DOTALL)
newline_regex.search('Serve the public trust.\nProtect the innocent.\nUphold the law.').group()

### Revisión de los símbolos de Regex

| Symbol                   | Matches                                                      |
| ------------------------ | ------------------------------------------------------------ |
| `?`                      | zero or one of the preceding group.                          |
| `*`                      | zero or more of the preceding group.                         |
| `+`                      | one or more of the preceding group.                          |
| `{n}`                    | exactly n of the preceding group.                            |
| `{n,}`                   | n or more of the preceding group.                            |
| `{,m}`                   | 0 to m of the preceding group.                               |
| `{n,m}`                  | at least n and at most m of the preceding p.                 |
| `{n,m}?` or `*?` or `+?` | performs a nongreedy match of the preceding p.               |
| `^spam`                  | means the string must begin with spam.                       |
| `spam$`                  | means the string must end with spam.                         |
| `.`                      | any character, except newline characters.                    |
| `\d`, `\w`, and `\s`     | a digit, word, or space character, resectively.              |
| `\D`, `\W`, and `\S`     | anything except a digit, word, or space acter, respectively. |
| `[abc]`                  | any character between the brackets (such as a, b, ).         |
| `[^abc]`                 | any character that isn’t between the brackets.              |

### Coincidencia de casos insensibles

Para hacer que su regex sea insensible a las mayúsculas y minúsculas, puede pasar re.IGNORECASE o re.I como segundo argumento para re.compile():

In [None]:
robocop = re.compile(r'robocop', re.I)
robocop.search('Robocop is part man, part machine, all cop.').group()

In [None]:
robocop.search('ROBOCOP protects the innocent.').group()

In [None]:
robocop.search('Al, why does your programming book talk about robocop so much?').group()

### Sustitución de las cadenas por el método sub()

Al método sub() para los objetos Regex se le pasan dos argumentos:

1. El primer argumento es una cadena para reemplazar cualquier coincidencia.
1. El segundo es la cadena para la expresión regular.

El método sub() devuelve una cadena de caracteres con las sustituciones aplicadas:

In [None]:
names_regex = re.compile(r'Agent \w+')
names_regex.sub('CENSORED', 'Agent Alice gave the secret documents to Agent Bob.')

Otro ejemplo:

In [None]:
agent_names_regex = re.compile(r'Agent (\w)\w*')
agent_names_regex.sub(r'\1****', 'Agent Alice told Agent Carol that Agent Eve knew Agent Bob was a double agent.')

### Manejo de Regexes complejos

Para decirle a la función re.compile() que ignore los espacios en blanco y los comentarios dentro de la cadena de expresión regular, se puede activar el "modo verboso" pasando la variable re.VERBOSE como segundo argumento a re.compile().

Ahora, en lugar de una expresión regular difícil de leer como esta:

In [None]:
phone_regex = re.compile(r'((\d{3}|\(\d{3}\))?(\s|-|\.)?\d{3}(\s|-|\.)\d{4}(\s*(ext|x|ext.)\s*\d{2,5})?)')

you can spread the regular expression over multiple lines with comments like this:

In [None]:
phone_regex = re.compile(r'''(
    (\d{3}|\(\d{3}\))?            # area code
    (\s|-|\.)?                    # separator
    \d{3}                         # first 3 digits
    (\s|-|\.)                     # separator
    \d{4}                         # last 4 digits
    (\s*(ext|x|ext.)\s*\d{2,5})?  # extension
    )''', re.VERBOSE)

## Resolver

Hasta ahora, los ejemplos que ha observado pueden considerarse “de juguete”, sin mucha utilidad práctica más allá de ilustrar el funcionamiento de los métodos del módulo regex. Para concluir vamos a aplicar lo que hemos aprendido en un caso mucho más divertido.

En el campo de la bioinformática, las expresiones regulares son muy útiles para **buscar secuencias** dentro de una cadena de ADN o ARN.

En el ADN, la información genética se representa mediante cuatro letras distintas que se corresponden a cuatro bases nitrogenadas: adenina (A), timina (T), guanina (G) y citosina (C). Las bases se agrupan en secuencias de tres caracteres llamadas codones. En el ADN hay 64 codones distintos, según la combinación de letras que los formen. La mayoría de codones sirven para codificar aminoácidos que, a su vez, sirven para construir proteínas útiles para el organismo.

Las Nucleoporinas son una familia de proteínas que regulan el intercambio de moléculas entre el núcleo celular y la membrana. La cadena de ADN que codifica estas proteinas tiene secuencias repetitivas de los aminoácidos fenilalanina y glicina.

Una de las proteínas de esta familia es la NUP153. En este ejemplo usaremos expresiones regulares para buscar las repeticiones de codones que codifican la fenilalanina y la glicina.

La proteína NUP153.
![proteina](https://robologs.net/wp-content/uploads/2019/04/NUP153-300x169.png)

El primer paso es buscar un fichero con la secuencia del gen NUP153. En bioinformática se utilizan los ficheros en formato FASTA, que representan secuencias de ácido nucleico o bien de proteínas. Puedes descargar el archivo del gen NUP153 desde [aqui](https://www.ncbi.nlm.nih.gov/nuccore/NC_000006.12?report=fasta&from=17615035&to=17706834&strand=true).

Ahora… ¿**cuál es la expresión regular** que permite identificar los dos aminoácidos que buscamos? La glicina se codifica con los codones GGA, GGC y GGG, la fenilalanina se codifica con TTT y TTC. Se requiere encontrar las repeticiones de codones; no queremos buscar los codones individuales