# Expresiones regulares en Python
El módulo `re` tiene las siguientes funciones de Regex:
- `findall`: Returns a list containing all matches  
- `search`: Returns a Match object if there is a match anywhere in the string  
- `match`: Returns a Match object if there is a match at the start of the string  
- `split`: Returns a list where the string has been split at each match  
- `sub`: Replaces one or many matches with a string  
- `finditer`: Return an iterator yielding all Match objects

In [1]:
import re

Las expresiones regulares son patrones formados por:  
- texto  
- Metacaracteres  
- Secuencias especiales  
- Sets  

In [2]:
texto = 'El Sol aparece por la mañana entre las montañas y los ríos'

### Texto

In [3]:
re.search("aña", texto)

<re.Match object; span=(23, 26), match='aña'>

In [4]:
#indexamos del inicio al final del span
texto[23:26]

'aña'

Los objetos de tipo `re.Match` tienen distintos atributos, pero el texto encontrado por el patrón está en el atributo `group(0)` o elemento [0]

In [5]:
m = re.search("aña", texto)
m[0].upper() #m[0] equivale a  re.search("aña", texto).group(0)

'AÑA'

In [6]:
[a for a in dir(m) if not a.startswith('__')]

['end',
 'endpos',
 'expand',
 'group',
 'groupdict',
 'groups',
 'lastgroup',
 'lastindex',
 'pos',
 're',
 'regs',
 'span',
 'start',
 'string']

In [7]:
texto[m.start():m.end()]

'aña'

In [8]:
m.group()

'aña'

Los objetos `re.match` también se pueden usar como valor booleano (`True` si el patrón regular existe en la cadena de texto).

In [9]:
if re.search("caña", texto):
    print("True")
else:
    print("False")

False


Para buscar todas las apariciones del patrón en el texto (sólo el texto) usamos `re.findall()`

In [10]:
re.findall("aña", texto)

['aña', 'aña']

Para obtener un objeto `Match` por cada patrón encontrado hay que usar la función `re.finditer()`

In [11]:
patrones = re.finditer("aña", texto)
patrones

<callable_iterator at 0x7f35fc17b850>

In [12]:
for p in patrones:
    print(p)

<re.Match object; span=(23, 26), match='aña'>
<re.Match object; span=(43, 46), match='aña'>


La función `match` sólo busca al inicio del *string*.

In [13]:
re.match("aña", texto)

In [14]:
re.match("El", texto)

<re.Match object; span=(0, 2), match='El'>

#### Metacaracteres

In [15]:
texto

'El Sol aparece por la mañana entre las montañas y los ríos'

In [16]:
re.findall("l.s", texto)

['las', 'los']

Cuantificadores

In [17]:
re.findall("las?", texto)

['la', 'las']

In [18]:
re.findall("las*", 'la las lass')

['la', 'las', 'lass']

In [19]:
re.findall("las?", 'la las lass')

['la', 'las', 'las']

In [20]:
re.findall("las+", 'la las lass')

['las', 'lass']

Por defecto la búsqueda de `regex` es *greedy*

In [21]:
re.search("<.*>", "<h1>Título</h1>")

<re.Match object; span=(0, 15), match='<h1>Título</h1>'>

In [22]:
re.search("<.*?>", "<h1>Título</h1>") #búsqueda no greedy

<re.Match object; span=(0, 4), match='<h1>'>

### Secuencias especiales

In [23]:
texto2 = "La caña es débil"

`\w`: caracteres alfanuméricos (unicode)

In [24]:
re.findall("\w", texto2)

['L', 'a', 'c', 'a', 'ñ', 'a', 'e', 's', 'd', 'é', 'b', 'i', 'l']

In [25]:
re.findall("\w+", texto2)

['La', 'caña', 'es', 'débil']

In [26]:
#cuidado porque el rango de caracteres A-Z no incluye caracteres unicode
re.findall("[A-Za-z0-9_]+", texto2)

['La', 'ca', 'a', 'es', 'd', 'bil']

In [27]:
re.findall("\w+", "mañana, adiøs18")

['mañana', 'adiøs18']

`\d`: dígitos

In [28]:
texto2 = "Hay 35 alumnos en 1º, pero sólo 7 en 4º"

In [29]:
re.findall("\d+", texto2)

['35', '1', '7', '4']

In [30]:
re.findall("\w+", texto2)

['Hay', '35', 'alumnos', 'en', '1º', 'pero', 'sólo', '7', 'en', '4º']

`\b`: inicio o fin de palabra

In [31]:
texto = "la blanca lavandería"

In [32]:
re.findall(r"\bla\w*", texto) #palabras que comienzan por 'la'

['la', 'lavandería']

In [33]:
#por contra
re.findall(r"la\w*", texto) #palabras que contienen 'la'

['la', 'lanca', 'lavandería']

In [34]:
re.findall(r"\w*os\b", "los ríos y otras oscuras formaciones geológicas") #palabras que terminan en 'os'

['los', 'ríos']

In [35]:
#por contra
re.findall(r"\w*os", "los ríos y otras oscuras formaciones geológicas")

['los', 'ríos', 'os']

### Sets

In [36]:
texto = 'los soles y las lisas cantan loas'

In [37]:
re.findall("l\ws", texto)

['los', 'les', 'las', 'lis']

In [38]:
re.findall("l[oa]s", texto)

['los', 'las']

In [39]:
re.findall("l[oa]+s", texto)

['los', 'las', 'loas']

### cuantificadores numéricos

In [40]:
texto = 'El Sol aparece por la mañana entre las montañas y los ríos'

In [41]:
re.findall("\w{4,5}", texto) #palabras de 4 o más caracteres

['apare', 'mañan', 'entre', 'monta', 'ríos']

In [42]:
re.findall(r"\b\w{2,4}\b", texto) #palabras dentre 2 y 4 caracteres

['El', 'Sol', 'por', 'la', 'las', 'los', 'ríos']

### Ejercicio
Detecta palabras que empiezan por `m` con una longitud entre 3 y 5 caracteres en el siguiente texto

In [43]:
texto = 'más o menos me da igual, de manera que tú mismo'

re.findall(r'\bm\w{2,4}', texto)


['más', 'menos', 'maner', 'mismo']

### Captura de grupos
Un grupo es una parte del patrón RegEx que queremos obtener (capturar) dentro de una patrón RegEx más amplio

In [44]:
texto = 'Hay 35 alumnos en 1º pero sólo 7 en 4º'

In [45]:
re.findall(r"(\d+)º", texto) #capturamos 1 dígito sólo si va seguido de 'º'

['1', '4']

In [46]:
#Si hay varios grupos, findall devuelve una tupla
texto = 'Hay 35 alumnos en 1A pero sólo 7 en 4B'
re.findall(r"(\d)([A-Z])", texto) #capturamos 1 dígito sólo si va seguido de una letra mayúscula

[('1', 'A'), ('4', 'B')]

In [47]:
#obtener una fecha con patrón yyyy-mm-dd
fechas = "2021-3-21, 2020-12-1, 2019-11-25, 2018-11"
re.findall("\d{4}-\d{1,2}-\d{1,2}", fechas)

['2021-3-21', '2020-12-1', '2019-11-25']

In [48]:
#obtener sólo el mes en un patrón yyyy-mm-dd
re.findall("\d{4}-(\d{1,2})-\d{1,2}", fechas)

['3', '12', '11']

Si queremos usar los paréntesis para aplicar un metacaracter o un cuantificador a un patrón en lugar de un sólo carácter, usamos un *non-capturing group* mediante la sintaxis expecial `(?:...)`

In [49]:
#detecta todos los ordinales
re.findall(r"\d+(?:er|º|ª)", "El corredor 23 quedo 1º en el 1er día de carrera y su mujer 2ª")

['1º', '1er', '2ª']

### Ejercicio
La última fecha (2018-11) no se ha detectado, ¿cómo podemos detectarla?

In [50]:
re.findall("\d{4}-\d{1,2}(?:-\d{1,2})?", fechas)

['2021-3-21', '2020-12-1', '2019-11-25', '2018-11']

## Grupos numerados
Podemos asignar un nombre a cada grupo y luego referenciarlo en el objeto `re.Match`

In [51]:
#buscamos letra seguida de dígito
objeto = re.search(r"(?P<letra>[ab])(?P<dígito>\d)", "5, a3, b4")

In [52]:
objeto.groupdict()

{'letra': 'a', 'dígito': '3'}

In [53]:
objeto['letra'] #grupo capturado 'letter'

'a'

In [54]:
objeto[0] #texto completo capturado por el patrón

'a3'

In [55]:
#Para buscar todos los matches hay que usar una búsqueda iterativa
for objeto in re.finditer(r"(?P<letra>[ab])?(?P<dígito>\d)", "5, a3, b4"):
    print(objeto.groupdict())

{'letra': None, 'dígito': '5'}
{'letra': 'a', 'dígito': '3'}
{'letra': 'b', 'dígito': '4'}


### División y substitución de texto
usando `re.split()` y `re.sub()`

In [56]:
#Usando un patrón para dividir
texto3 = "Los pájaros cantan, las nubes se levantan. Que sí, que no, que caiga un chaparrón."
re.split("[,.\s]+", texto3)

['Los',
 'pájaros',
 'cantan',
 'las',
 'nubes',
 'se',
 'levantan',
 'Que',
 'sí',
 'que',
 'no',
 'que',
 'caiga',
 'un',
 'chaparrón',
 '']

In [57]:
#substitución de texto
texto = 'El Sol aparece por la mañana entre las montañas y los ríos'
re.sub(" ", "_", texto)

'El_Sol_aparece_por_la_mañana_entre_las_montañas_y_los_ríos'

In [75]:
#substitución de un patrón
re.sub("l[ao]s", "l@s", texto)

'El Sol aparece por la mañana entre l@s montañas y l@s ríos'

In [59]:
#substitución de un grupo capturado
fechas = "2021-3-21, 2020-12-1, 2019-11-25, 2018-11"
re.sub("(\d{4})-(\d{1,2})-(\d{1,2})", r"\3/\2/\1", fechas)

'21/3/2021, 1/12/2020, 25/11/2019, 2018-11'

In [60]:
#Uso de una función sobre el texto a substituir
def mayusculas(m):
    return m[0].upper() #el elemento 0 de un objeto Match es el texto encontrado

re.sub(r"\b\w{3}\b", mayusculas, texto) #pasa a may. palabras de 3 letras

'El SOL aparece POR la mañana entre LAS montañas y LOS ríos'

In [61]:
#podemos usar grupos etiquetados dentro de la función
def expandir(m):
    return f"{m['dia'].zfill(2)}/{m['mes'].zfill(2)}/{m['año']}"

re.sub("(?P<año>\d{4})-(?P<mes>\d{1,2})-(?P<dia>\d{1,2})", expandir, fechas)

'21/03/2021, 01/12/2020, 25/11/2019, 2018-11'

## Uso de RegEx en Pandas

In [62]:
import pandas as pd
import numpy as np

In [63]:
s = pd.Series(
     ["A", "B", "C", "Aaba", "Baca", "", np.nan, "CABA", "dog", "cat"],
     dtype="string",
 )
s

0       A
1       B
2       C
3    Aaba
4    Baca
5        
6    <NA>
7    CABA
8     dog
9     cat
dtype: string

### `str.replace()`

In [64]:
s.str.replace("A\w+|B\w+", "XX", regex=True)

0       A
1       B
2       C
3      XX
4      XX
5        
6    <NA>
7     CXX
8     dog
9     cat
dtype: string

### `str.extract()`y `str.extractall()`

In [65]:
#The extract method accepts a regular expression with at least one capture group.
pd.Series(
     ["a1", "b2", "c3"],
     dtype="string",
 ).str.extract(r"([ab])(\d)")

Unnamed: 0,0,1
0,a,1.0
1,b,2.0
2,,


In [66]:
#Podemos hacer un grupo opcional.
pd.Series(
     ["a1", "b2", "c3", "ab"],
     dtype="string",
 ).str.extract(r"([ab])?(\d)")

Unnamed: 0,0,1
0,a,1.0
1,b,2.0
2,,3.0
3,,


In [67]:
#Podemos poner nombres a los grupos.
pd.Series(
     ["a1,b7", "b2", "c3"],
     dtype="string",
 ).str.extract(r"(?P<letter>[ab])?(?P<digit>\d)")

Unnamed: 0,letter,digit
0,a,1
1,b,2
2,,3


The `extractall` method returns every match. The result of `extractall` is always a DataFrame with a MultiIndex on its rows. The last level of the MultiIndex is named `match` and indicates the order in the subject.

In [68]:
s2 = pd.Series(["a1a2", "b1", "c1"], index=["A", "B", "C"], dtype="string")
s2

A    a1a2
B      b1
C      c1
dtype: string

In [69]:
s2.str.extractall("(?P<letter>[a-z])(?P<digit>[0-9])")

Unnamed: 0_level_0,Unnamed: 1_level_0,letter,digit
Unnamed: 0_level_1,match,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0,a,1
A,1,a,2
B,0,b,1
C,0,c,1


### `match`, `fullmatch`, `contains`

In [70]:
s = pd.Series(
     ["1", "2", "3a", "3b", "03c", "4dx", "5b"],
     dtype="string",
 )
s

0      1
1      2
2     3a
3     3b
4    03c
5    4dx
6     5b
dtype: string

In [71]:
pd.concat([s,s.str.contains(r"[0-3][a-z]")], axis=1) #en cualquier lugar del texto

Unnamed: 0,0,1
0,1,False
1,2,False
2,3a,True
3,3b,True
4,03c,True
5,4dx,False
6,5b,False


In [72]:
pd.concat([s,s.str.match(r"[0-9][a-z]")], axis=1) #sólo al inicio del texto

Unnamed: 0,0,1
0,1,False
1,2,False
2,3a,True
3,3b,True
4,03c,False
5,4dx,True
6,5b,True


In [73]:
pd.concat([s,s.str.fullmatch(r"[0-9][a-z]")], axis=1)

Unnamed: 0,0,1
0,1,False
1,2,False
2,3a,True
3,3b,True
4,03c,False
5,4dx,False
6,5b,True
