<p style="text-align: center">
    <img src="../../assets/images/untref-logo-negro.svg" />
</p>

<h3 style="text-align: center">Estructuras de Datos</h3>

<h2 style="text-align: center">Expresiones Regulares</h2>

Las expresiones regulares son patrones de texto descritos con una sintaxis formal. Se conocen como **regex**.

En Python el módulo `re` permite manipularlas

- `foo` es una expresión regular
- `[A-Z]+:\d+` es otra expresión regular

Se pueden probar online en la página https://regex101.com/

En general se usan para:

- Encontrar texto.
- Validar el formato de una cadena.
- Reemplazar un texto por otro.
- Partir el texto en porciones.



### Caracteres

| Expresión | Significado | Ejemplo | Match |
| :- | :- | :- | :- |
| `\d` | En la mayoría de los lenguajes un dígito 0..9 | `file_\d\d` | file_25 |
| | En Python 3 y .Net un dígito Unicode | `file_\d\d` | file_2੩ |
| `\w` | En la mayoría de los lenguajes, un carácter de palabra: letra, dígito o '_' | `\w-\w\w\w` | A-f_3 |
| | En Python 3, un símbolo Unicode de palabra, incluye '_' | `\w-\w\w\w` | 字-ま_۳ |
| | En .NET, un símbolo Unicode de palabra, incluye conector '‿' | `\w-\w\w\w` | 字-ま‿۳ |
| `\s` | En la mayoría de los lenguajes caracteres de blanco estándar | `a\sb\sc` | a b c |
| | En la .NET, Python 3, Javascript, caracteres de blanco Unicode | `a\sb\sc` | a b c |
| `\D` | Un caracter que no es un dígito `\d`del lenguaje | `\D\D\D` | ABC |
| `\W` | Un caracter que no es un caracter de palabra `\w`del lenguaje | `\W\W\W\W` | *+=) |
| `\S` | Un caracter que no es un blanco estandar `\s`del lenguaje | `\S\S\S\S` | casa |


### Cuantificadores

| Expresión | Significado | Ejemplo | Match |
| :- | :- | :- | :- |
| `+` | Una o más apariciones | `\w-\w+` | C-125x_1 |
| `{3}` | Exactamente tres apariciones | `\D{3}` | ANA |
| `{2,4}` | Entre dos y cuatro apariciones | `\W{2,4}` | {+} |
| `*` | Cero o más aparaciones | `A*B*C*` | AAAACCCC |
| `?` | Cero o una aparición | `casas?` | casa |


### Más Caracteres

| Expresión | Significado | Ejemplo | Match |
| :- | :- | :- | :- |
| `.` | Cualquier caracter, excepto cortes de líneas | `a.c` | abc |
| | | `.*` | piso 2, depto "A" |
| `\.` | Un punto | `\w\.\d` | a.3 |
| `\` | Escape de caracteres especiales | `\*\?\$\^` | *?$^ |
| | | `\[\{\(\)\}\]` | [{()}] |


### Lógica

| Expresión | Significado | Ejemplo | Match |
| :- | :- | :- | :- |
| `\|` | Or | `22\|33` | 22 |
| `( ... )` | Captura un grupo y lo asocia a una variable numerada | `UN(O\|TREF)` | UNTREF (y captura TREF) |
| `\1` | Lo capturado en el grupo 1 | `r(\w)g\1\x` | regex |
| `\2` | Lo capturado en el grupo 2 | `(\d+)+(\d+)=\2+\1` | 25+33=33+25 |
| `(?:…)` | Grupo que no se captura (se verifica la regex pero no se captura) | `A(?:na\|licia)` | Alicia |



### Clases de caracteres

| Expresión | Significado | Ejemplo | Match |
| :- | :- | :- | :- |
| `[ ... ]` | Uno de los caracteres entre corchetes | `[AEIOU]` | A |
| `-` | Indicador de rango | `[a-z]` | Una letra minúscula |
| | | `[A-Z]+` | Una o más letras mayúsculas |
| | | `[AB1-5w-z]` | Uno de los caracteres A, B, 1, 2, 3, 4, 5, w, x, y, z|
| `[^x]` | Cualquier caracter distinto de x | `A[^a]B` | AxB |
| `[^x-y]` | Cualquier caracter fuera del rango x-y | `[^a-z]{3}` | A1! |
| `[\xhh]` | El caracter con código hh en hexadecimal de la tabla de símbolos [ASCII](https://ascii.cl/es/) | `[\x41-\x45]{3}` | ABE |


### Posiciones: fronteras y anclas

| Expresión | Significado | Ejemplo | Match |
| :- | :- | :------- | :-|
| `^` | Indicador de comienzo de cadena (o comienzo de línea). | | |
| | Tiene que estar fuera de [ ] (adentro de [ ] significa negación) | `^abc.*` | Texto que empieza con *abc* |
| `$` | Fin de cadena o fin de línea | `.*el final\.$` | Texto que termina en *el final.* |
| `\b` | Frontera de la palabra | `Bibi.*\bes\b.*` | Bibi es mi amiga |
| `\B` | No es frontera de palabra | `Bibi.*\Bes\B.*` | Bibi usa un vestido |

### Miradas alrededor (_look behind_ y _look ahead_)

No consumen caracteres, se quedan paradas donde ocurrió el matching

| Expresión | Significado | Ejemplo | Match |
| :- | :- | :------- | :-|
| `(?=…)` | Mirar hacia adelante con parámetro positivo | `(?=\d{10})\d{5}` | Si hacia adelante hay 10 dígitos matchear los primeros 5 |
| `(?<=…)` | Mirar hacia atrás con parámetro positivo | `(?<=foo).*` | lo que está justo detrás de la posición corriente es la cadena 'foo' |
| | | | El matching es todo lo que sigue a foo |
| `(?!…)` | Mirar hacia adelante con parámetro negativo | `q(?!ue)` | matchea una q no este seguida de ue |
| | | `(?!teatro)te\w+` | cualquier palabra que empiece con te pero no sea teatro |
| `(?<!…)` | Mirar hacia atrás con parámetro negativo | `(?<!fut)bol` | bol siempre y cuando no esté precedida por fut |

## Expresiones regulares en Python

En Python por defecto se instala el módulo `re`.

El módulo `re` provee soporte para expresiones regulares en estilo Perl.

Algunos métodos de `re`:

<dl>
<dt><code>match</code>:</dt>
<dd>Encuentra patrones al principio de la cadena. Devuelve un objeto MatchObject.</dd>
<dt><code>search</code>:</dt>
<dd>Encuentra la primera aparición del patrón en la cadena. Devuelve un objeto MatchObject.</dd>
<dt><code>findall</code>:</dt>
<dd>Devuelve una lista con todas las apariciones del patrón en la cadena.</dd>
<dt><code>finditer</code>:</dt>
<dd>Devuelve un iterador de todas las apariciones del patrón en la cadena.</dd>
<dt><code>split</code>:</dt>
<dd>Devuelve una lista con subcadenas partidas por la aparición del patrón.</dd>
<dt><code>sub</code>:</dt>
<dd>Busca todas apariciones del patrón y las sustituye por otra cadena, devuelve la nueva cadena.</dd>
<dt><code>subn</code>:</dt>
<dd>Hace lo mismo que sub pero devuelve la nueva cadena y la cantidad de reemplazos.</dd>
</dl>


### Getters del objeto MatchObject

- `group()`: lo matcheado.
- `start()`: posición inicial.
- `end()`: posición final.
- `span()`: par (posición inicial, posición final).


### Buscar texto

In [None]:
import re

regex = r'(.+).*\1'
texto = 'coca, pepsi coca'
encontrado = re.match(regex, texto) 

In [None]:
encontrado

In [None]:
encontrado.group()

In [None]:
encontrado.start()

In [None]:
encontrado.end()

In [None]:
encontrado.span()

In [None]:
regex = r'\d+'
texto = '1, 2, 3 indiecitos, 4, 5, 6 indiecitos'
encontrados = re.findall(regex, texto)

In [None]:
encontrados

In [None]:
type(encontrados)

### Validar formatos

In [None]:
import re


mail_checker = re.compile(r'^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$')

if mail_checker.match('m@franzone.untref.edu.ar'):
    print("valido")
else:
    print("invalido")

In [None]:
import re


# Validar que formato de una fecha entre 01/11/2020 y 31/12/2020
# Fechas validas:    15/11/2020, 25-12-2020, 30.11.2020, 9.12.2020, 09/12/2020
# Fechas inválidas:  11/15/2020, 25-12/2020, 31.11.2020

fecha_pattern = r'^(?:[0-2]?\d([\/\-\.])1[1-2]\1(?:2020))|(?:30([\/\-\.])1[1-2]\2(?:2020))|(?:31([\/\-\.])12\3(?:2020))$'

fecha_checker = re.compile(fecha_pattern)

if fecha_checker.match("2/11/2020"):
    print("valido")
else:
    print("inválido")

### Reemplazar texto

In [None]:
import re

regex = r'^(.*\.)[^.]+$'
sub = r'\1rar'
archivo = "file.zip"
archivo = re.sub(regex, sub, archivo)

print(archivo)

### Separar cadenas

In [None]:
import re


re.split(r'[\W]+', 'Palabras, palabras,,, palabras?. palabra23! palabra32+++palabra ¿año?')

### Para profundizar

- Documentación oficial
    - https://docs.python.org/es/3/library/re.html
- Rex Egg. The world's most tyrannosaurical regex tutorial.
    - http://www.rexegg.com/
