<!--NAVIGATION-->


<a href="https://colab.research.google.com/github/msantana0612/TFG/blob/main/notebooks/notebookRegex.ipynb" target="_blank" rel="noopener noreferrer"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>

<h1> Expresiones regulares </h1>

Las expresiones regulares, también conocidas como "regex", son patrones utilizados para hacer coincidir combinaciones de caracteres en texto. El uso de este tipo de expresiones permite buscar, filtrar, y manipular texto de forma eficiente. EN Linux, algunos comandos admiten expresiones regulares como argumentos, como podrían ser **grep** (añadiendo el modificador "-E"), **find** o **sed**.

Las expresiones regulares contienen dos tipos de caracteres: ordinarios y especiales (metacaracteres):
  
- **Caracteres ordinarios**: Son todos aquellos caracteres que coinciden con ellos mismos. Esto son letras, números u otros símbolos que no sean metacaracteres.

**Ejemplo**: Usando el comando grep, busca en el archivo "caracterOrdinario.txt" las líneas que contengan los literales "u", "n" y "a" seguidos (la segunda línea no coincide porque las expresiones regulares son "case sensitive" (diferencian mayúsculas y minúsculas).



In [23]:
%%shell
echo -e "una prueba de expresiones regulares\nUna prueba de expresiones regulares\nEl rio Sena" > caracterOrdinario.txt
grep -E "una" caracterOrdinario.txt
rm caracterOrdinario.txt

una prueba de expresiones regulares




- **Caracteres especiales**: Son caracteres que tienen un significado diferente a su literal, que sirve para indicar diferentes funcionalidades:

| Metacaracter | Descripción                                                                 |
|--------------|-----------------------------------------------------------------------------|
| .            | Coincide con cualquier carácter excepto el salto de línea.                  |
| ^            | Coincide con el inicio de una línea.                                        |
| $            | Coincide con el final de una línea.                                         |
| []           | Define un conjunto de caracteres. Ejemplo: [aeiou] coincide con una vocal.  |
| [^]          | Coincide con cualquier carácter que no esté en el conjunto. Ejemplo: [^0-9].|
| *            | Coincide con cero o más repeticiones del carácter o grupo anterior.         |
| +            | Coincide con una o más repeticiones del carácter o grupo anterior.          |
| ?            | Coincide con cero o una repetición del carácter o grupo anterior.           |
| \            | Escapa un carácter especial para tratarlo como carácter ordinario. Ejemplo: \. coincide con un punto literal. |
| (abc)           | Agrupa caracteres. Ejemplo: (abc)+ coincide con una o más repeticiones de "abc". |
| {n,m}           | Corresponde a, al menos, "n" repeticiones de un carácter, pero no más de "m" veces. |

**Ejemplo**: Usando el comando grep, busca en el archivo "caracterEspecial.txt" las líneas que contenga cualquier carácter, "n" y "a" seguidos. De esta forma, también coinciden la segunda línea (carácter "U" en "Una") y la tercera línea (carácter "e" en "Sena").

In [24]:
%%shell
echo -e "una prueba de expresiones regulares\nUna prueba de expresiones regulares\nEl rio Sena" > caracterEspecial.txt
grep -E ".na" caracterEspecial.txt
rm caracterEspecial.txt

una prueba de expresiones regulares
Una prueba de expresiones regulares
El rio Sena




<h3>Ejemplos de uso</h3>

Combinando los metacaracteres "^" y "$", podemos indicar que los caracteres de la expresión regular deberán coincidir con la línea entera:

In [26]:
%%shell
echo -e "123456789\nABC456789" > numeros.txt
grep -E "^[0-9]+$" numeros.txt #Acepta líneas compuestas de solo números(uno o más)
rm numeros.txt

123456789




Al introducir el caracter "^" después del corchete de apertura, niega el conjunto de caracteres dentro de los corchetes:

In [27]:
%%shell
echo -e "una prueba de expresiones regulares\nUna prueba de expresiones regulares\nEl rio Sena" > caracterEspecial.txt
grep -E "[^e]na" caracterEspecial.txt
rm caracterEspecial.txt

una prueba de expresiones regulares
Una prueba de expresiones regulares




Al añadir el carácter "?", hacemos opcional el precedente: es decir, coincide con 0 o 1 repetición:

In [30]:
%%shell
echo -e "una prueba de expresiones regulares\nUna prueba de expresiones regulares\nEl rio Sena" > caracterEspecial.txt
grep -E "[U]?na" caracterEspecial.txt #Detecta expresiones de la forma "Una" o "na"
rm caracterEspecial.txt

una prueba de expresiones regulares
Una prueba de expresiones regulares
El rio Sena




Con el uso de llaves, podemos indicar el número de repeticiones exacto que queremos que aparezca un conjunto:

In [38]:
%%shell
echo -e "12345\n123\n1234567\n1\n123456789" > numeros.txt
grep -E "^[0-9]{3,7}$" numeros.txt #Coincide con líneas que contengan de 3 a 7 números
rm numeros.txt

12345
123
1234567




Al usar un carácter especial como "*", "+", "?" o {n,m}, se aplica sólo a el último carácter, pero si previo a estos metacaracteres hay unos paréntesis, se aplica al conjunto dentro de los paréntesis:

In [40]:
%%shell
echo -e "Accesos denegados\nPermiso concedido" > parentesis.txt
grep -E "(c){2,}" parentesis.txt #Coincide con 2 o más "c" consecutivas
rm parentesis.txt

Accesos denegados




Para poder usar metacaracteres como literales, basta con poner delante un "\":

In [42]:
%%shell
echo -e "Punto final.\nSin punto final. Solo punto y seguido" > punto.txt
grep -E "\.$" punto.txt #Detecta el carácter literal "." solo al final de la linea
rm punto.txt

Punto final.




<h3>Conjuntos abreviados</h3>

Para conjuntos comúnmente utilizados, existen abreviaciones para indicar estos conjuntos:

| Abreviatura | Descripción                                                      |
|-------------|------------------------------------------------------------------|
| .           | Cualquier carácter excepto nueva línea                           |
| \w          | Coincide con los caracteres alfanuméricos: [a-zA-Z0-9_]          |
| \W          | Coincide con los caracteres no alfanuméricos: [^\w]              |
| \d          | Coincide con los dígitos: [0-9]                                  |
| \D          | Coincide con los no dígitos: [^\d]                               |
| \s          | Coincide con los caracteres espaciales: [\t\n\f\r\p{Z}]          |
| \S          | Coincide con los caracteres no espaciales: [^\s]                 |


**Ejemplo**: Se puede reescribir uno de los ejemplos anteriores usando estas abreviaciones (Para que **grep** admita estos subconjuntos, es necesario cambiar el modificador -E por -P):

In [44]:
%%shell
echo -e "12345\n123\n1234567\n1\n123456789" > numeros.txt
grep -P "^\d{3,7}$" numeros.txt #Coincide con líneas que contengan de 3 a 7 números
rm numeros.txt

12345
123
1234567




<h3>Expresión regular compleja</h3>

Finalmente, para ver todo lo visto anteriormente, un ejemplo que detecta correos electrónicos válidos:

In [50]:
%%shell
echo "usuario1@correo.com" >> correos.txt #Válido
echo "usu@rio2@correo.com" >> correos.txt #Inválido
echo "usuario.externo3@correo.com" >> correos.txt #Válido
echo "usuario_externo4@correo.es" >> correos.txt #Válido
echo "usuario.externo5@correo.c" >> correos.txt #Inválido
echo "usuario#correo.es" >> correos.txt #Inválido
grep -E "^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$" correos.txt
rm correos.txt

usuario1@correo.com
usuario.externo3@correo.com
usuario_externo4@correo.es


