# "Expresiones regulares (RegEx) + Python"
> "Conceptos básicos para iniciarse"

- toc: false
- branch: master
- badges: true
- comments: true
- categories: [curso_Fast.ai]
- image: images/red2.png
- hide: false
- search_exclude: true
- metadata_key1: metadata_value1
- metadata_key2: metadata_value2

Nota: Puedes ejecutar este post en Google Colab o Binder o verlo en GitHub, pulsa el icono.

## Conceptos básicos:


**[Expresiones regulares (RegEx)](https://es.wikipedia.org/wiki/Expresi%C3%B3n_regular)** es un pequeño lenguaje que usa cadenas de caracteres para encontrar patrones o sustituir caracteres dentro de un texto. 

Están integrados en multitud de aplicaciones y lenguajes de programación facilitando enormemente el trabajo con textos.

En [python](https://www.python.org/) tenemos el módulo [re](https://docs.python.org/3/library/re.html). Para usarlo introducimos lo siguiente:

In [1]:
import re 

Definimos un patrón y una cadena donde buscarlo:

In [2]:
patron="dos"
cadena = "dos"

Se crea un objeto *expresión regular* y se busca en la cadena de texto

In [3]:
re_object = re.compile(patron)
print(re_object.search(cadena))

<re.Match object; span=(0, 3), match='dos'>


## r
Sirve para manejar caracteres especiales (sólo en Python):<br><br>
        - r"\n" -> equivale a los caracteres \ y n<br>
        - "\n"  -> equivale a salto de línea

In [4]:
print (r"Aquí uso 'r' \n")
print ("\n Aquí no uso 'r' \n y tenemos  \n el salto")

Aquí uso 'r' \n

 Aquí no uso 'r' 
 y tenemos  
 el salto


A la hora de buscar patrones, tenemos diferentes metodos en re, entre los que destacan:<br>

Método | Explicación
------------ | -------------
**match()** | busca el patrón al principio de la cadena
**search()** | busca el patrón en cualquier parte de la cadena
**findall()** | devuelve lista con las subcadena que encuentre
**finditer()** | devuelve iterador con las subcadena que encuentre
    



## Metacaracteres: 

**. ^ $ * + ? { } [ ] \ | ( )

Tienen un siginificado especial



## [  ]
Especifica un conjunto de caracteres, en una lista o un rango (usando '-'). Los metacaracteres no tienen significado especial dentro.<br>
Por ejemplo:<br>
    -[A-Z] caracter comprendido entre la A y Z en mayúsculas.<br>
    -[abc] cualquiera de éstos: a,b o c<br>
        

In [88]:
patron = "t[a-z]la" 
cadena = "tila tela tla"
re_object = re.compile(patron)
print(re_object.findall(cadena))

['tila', 'tela']


## ^
Complementario. Por ejemplo: ^t  cualquiera salvo 't'

In [95]:
patron = "[^321t]" 
cadena = "lote1234 @"
re_object = re.compile(patron)
print(re_object.findall(cadena))

['l', 'o', 'e', '4', ' ', '@']


## |
Opcional, a elegir entre varios

In [86]:
patron = "pe[rro|na|lea]" 
cadena = "perro"
re_object = re.compile(patron)
print(re_object.search(cadena))

<re.Match object; span=(0, 3), match='per'>


## **\**

Sirve para indicar formas especiales o para permitir el uso de caracteres especiales sin invocar su significado especial.

In [6]:
print ("Un salto de línea: \n...continuación\n")
print ("Anulamos el significado especial con otro '\\': \\n")

Un salto de línea: 
...continuación

Anulamos el significado especial con otro '\': \n


Metacaracter | Explicación | Equivalencia
------------ | ------------- | -------------
**\d** | cualquier dígito decimal | [0-9]    
**\D** | cualquier caracter no dígito decimal | [^0-9] 
**\w** | cualquier caracter alfanumérico | [a-zA-Z0-9_]  
**\W** | cualquier caracter NO alfanumérico | [^a-zA-Z0-9_]   
**\s** | cualquier caracter espacio en blanco  |  [ \t\n\r\f\v]   
**\S** |cualquier caracter NO espacio en blanco | [^ \t\n\r\f\v] 

## . 
Cualquier carácter, salvo salto de línea. 
Alternativa: re.DOTALL (incluye salto de línea).

Ejemplos:

In [104]:
cadena = "lote1234 @"

re.findall(r'\d', cadena)

['1', '2', '3', '4']

In [105]:
re.findall(r'\D', cadena)

['l', 'o', 't', 'e', ' ', '@']

In [106]:
re.findall(r'\w', cadena)

['l', 'o', 't', 'e', '1', '2', '3', '4']

In [107]:
re.findall(r'\W', cadena)

[' ', '@']

In [108]:
re.findall(r'\s', cadena)

[' ']

## (  )
Extrae grupos de caracteres

In [141]:
cadena = "archivo123.pdf"
re.findall(r'(archivo\d*).pdf', cadena)

['archivo123']

## Delimitadores:

Metacaracter | Explicación 
------------ | ------------- 
**^** **\$** | inicio y fin de línea
**\A \Z** | inicio y fin de texto
**\b** | inicio o fin de una palabra
**\B** | inicio o fin distinto de una palabra


## Repeticiones:

Metacaracter | Explicación 
------------ | ------------- 
* | 0 o más veces
**+** | 1 o más veces
**?** | 0 o 1 vez
**{m,n}** | de m a n veces



<br>Ejemplos:

In [5]:
cadena = "csa casa caasa caaasa"

re.findall(r'ca*sa', cadena)

['csa', 'casa', 'caasa', 'caaasa']

In [101]:
re.findall(r'ca+sa', cadena)

['casa', 'caasa', 'caaasa']

In [102]:
re.findall(r'ca?sa', cadena)

['csa', 'casa']

In [103]:
re.findall(r'ca{2,3}sa', cadena)

['caasa', 'caaasa']

## Ejemplos útiles

### Correo electrónico

In [13]:
cadena = "usuario@empresa.es"
re.findall(r'\b[\w._%+-]+@[\w.-]+\.[a-zA-Z]{2,4}\b', cadena)

['usuario@empresa.es']

### Seleccionar archivos de un tipo

In [37]:
cadena = "foto123.jpg foto32.png texto.doc imagen.gif"
re.findall(r'([\w]+\.[jpg|jpeg|png|gif])', cadena)

['foto123.j', 'foto32.p', 'imagen.g']