# Expresiones regulares en Python
El módulo `re` tiene las siguientes funciones de Regex:
- `findall`: Returns a list containing all matches  
- `search`: Returns a Match object if there is a match anywhere in the string  
- `match`: Returns a Match object if there is a match at the start of the string  
- `split`: Returns a list where the string has been split at each match  
- `sub`: Replaces one or many matches with a string  

In [1]:
import re

Las expresiones regulares son patrones formados por:  
- texto  
- Metacaracteres  
- Secuencias especiales  
- Sets  

In [2]:
texto = 'El Sol aparece por la mañana entre las montañas y los ríos'

### Texto

In [3]:
m = re.search("aña", texto)
m

<re.Match object; span=(23, 26), match='aña'>

In [4]:
re.match("aña", texto) #sólo busca al inicio del string

Los objetos de tipo `re.Match` tienen distintos atributos

In [5]:
[att for att in dir(m) if not att.startswith("__")]

['end',
 'endpos',
 'expand',
 'group',
 'groupdict',
 'groups',
 'lastgroup',
 'lastindex',
 'pos',
 're',
 'regs',
 'span',
 'start',
 'string']

El texto encontrado (*match*) está en el atributo `group(0)` o elemento [0]

In [6]:
m[0] #equivale a  re.search("aña", texto).group(0)

'aña'

El atributo `span` indica los caracteres inicial y final del *match*

In [7]:
m.span()

(23, 26)

In [8]:
texto[m.span()[0]: m.span()[1]]

'aña'

In [9]:
m.start()

23

In [10]:
m.end()

26

Los objetos `re.match` también se pueden usar como valor booleano (toman un valor `True` si el patrón regular existe en la cadena de texto).

In [11]:
if re.search("aña", texto):
    print("Existe")
else:
    print("No match")

Existe


In [12]:
if re.match("aña", texto):
    print("Existe")
else:
    print("No match")

No match


Para buscar **todas** las apariciones del patrón en el texto usamos `re.findall()` (pero sólo devuelve el texto como lista de *strings*)

In [13]:
re.findall("aña", texto)

['aña', 'aña']

Para obtener un objeto `Match` por cada patrón encontrado hay que usar la función `re.finditer()` que devuelve un *iterator*

In [89]:
patrones = re.finditer("aña", texto)
patrones

<callable_iterator at 0x1fe914dd3f0>

In [90]:
for p in patrones:
    print(p)

<re.Match object; span=(2, 54), match=' Sol aparece por la mañana entre las montañas y l>


#### Metacaracteres  
Definen un comportamiento especial en la búsqueda

In [16]:
re.findall("l.s", texto)

['las', 'los']

In [17]:
patrones = re.finditer("l.s", texto)

for p in patrones:
    print(p)

<re.Match object; span=(35, 38), match='las'>
<re.Match object; span=(50, 53), match='los'>


In [18]:
re.findall("las?", texto)

['la', 'las']

### Secuencias especiales
Definen un patrón a buscar (en lugar de una cadena literal)

In [19]:
texto2 = "La caña es débil."

In [20]:
re.findall("\w", texto2) #caracteres alfanuméricos

['L', 'a', 'c', 'a', 'ñ', 'a', 'e', 's', 'd', 'é', 'b', 'i', 'l']

In [21]:
re.findall("\w+", texto2)

['La', 'caña', 'es', 'débil']

Por defecto la búsqueda de `regex` es *greedy*

In [22]:
re.findall("a+", "aabaaabaaaab")

['aa', 'aaa', 'aaaa']

In [23]:
texto = 'los soles y las lisas cantan loas y laudeses'

In [24]:
re.findall("l\w+s", texto) #búsqueda no greedy

['los', 'les', 'las', 'lisas', 'loas', 'laudeses']

In [25]:
re.findall("l\w+?s", texto) #búsqueda no greedy

['los', 'les', 'las', 'lis', 'loas', 'laudes']

In [26]:
texto2 = "Hay 35 alumnos en 1º pero sólo 7 en 4º"

In [27]:
re.findall("\d+", texto2)

['35', '1', '7', '4']

In [28]:
re.findall("\w+", texto2)

['Hay', '35', 'alumnos', 'en', '1º', 'pero', 'sólo', '7', 'en', '4º']

In [29]:
texto = "la sala de lavandería de Salamanca"

In [30]:
re.findall(r"\bla\w*", texto) #palabras que comienzan por 'la'

['la', 'lavandería']

In [31]:
re.findall(r"\w*la\w*", texto) #palabras que contienen 'la'

['la', 'sala', 'lavandería', 'Salamanca']

In [32]:
re.findall(r"\w*la\b", texto) #palabras que terminan en 'la'

['la', 'sala']

In [33]:
re.findall(r"\w+la\b", texto) #palabras de +2 letras que terminan en 'la'

['sala']

### Sets
Definen un conjunto alternativo de patrones que hacen *match*

In [34]:
texto = 'los soles y las lisas cantan loas y laudeses'

In [35]:
re.findall("l\ws", texto)

['los', 'les', 'las', 'lis']

In [36]:
re.findall("l[oa]s", texto)

['los', 'las']

In [37]:
re.findall("l[oa]+s", texto)

['los', 'las', 'loas']

In [38]:
re.findall("[A-Za-z0-9_]+", "La caña es débil")

['La', 'ca', 'a', 'es', 'd', 'bil']

### cuantificadores

In [39]:
texto = 'El Sol aparece por la mañana entre las montañas y los ríos'

In [40]:
re.findall("\w{4,}", texto) #palabras de 4 o más caracteres

['aparece', 'mañana', 'entre', 'montañas', 'ríos']

In [41]:
#esto en cambio es erróneo
re.findall("\w{2,4}", texto) #palabras entre 2 y 4 caracteres

['El',
 'Sol',
 'apar',
 'ece',
 'por',
 'la',
 'maña',
 'na',
 'entr',
 'las',
 'mont',
 'añas',
 'los',
 'ríos']

In [42]:
#esto es correcto
re.findall(r"\b\w{2,4}\b", texto) #palabras dentre 2 y 4 caracteres

['El', 'Sol', 'por', 'la', 'las', 'los', 'ríos']

In [43]:
re.findall(r"\w{2,4}\b", texto) #últimos 2 a 4 caracteres de cada palabra

['El',
 'Sol',
 'rece',
 'por',
 'la',
 'ñana',
 'ntre',
 'las',
 'añas',
 'los',
 'ríos']

In [44]:
re.findall(r"\b\w{2,4}", texto) #primeros 2 a 4 caracteres de cada palabra

['El',
 'Sol',
 'apar',
 'por',
 'la',
 'maña',
 'entr',
 'las',
 'mont',
 'los',
 'ríos']

### Captura de grupos
Un grupo es un subconjunto de patrón RegEx que queremos obtener (capturar) cuando haya un match de una patrón de expresión regular más amplia

In [45]:
texto2

'Hay 35 alumnos en 1º pero sólo 7 en 4º'

In [46]:
re.findall(r"\dº", texto2)

['1º', '4º']

En cambio con un grupo podemos buscar un patrón regular y capturar sólo una parte. Compara con:

In [47]:
re.findall(r"(\d)º", texto2) #capturamos 1 dígito sólo si va seguido de 'º'

['1', '4']

In [48]:
#obtener una fecha con patrón yyyy-mm-dd
fechas = "2021-3-21, 2020-12-1, 2019-11-25, 2018-11"
re.findall("\d{4}-\d{1,2}-\d{1,2}", fechas)

['2021-3-21', '2020-12-1', '2019-11-25']

In [49]:
#obtener sólo el mes en un patrón yyyy-mm-dd
fechas = "2021-3-21, 2020-12-1, 2019-11-25, 2018-11"
re.findall("\d{4}-(\d{1,2})-\d{1,2}", fechas)

['3', '12', '11']

Si queremos usar un grupo para definir un patrón complejo pero queremos capturar toda la expresión regular usamos un *non-capturing group* mediante la sintaxis expecial `(?:...)`

In [50]:
#Encuentra todos los números con sus decimales
re.findall(r"\d+(?:[\.,]\d+)*", "34.5 34,56 5$ 3.476,76 50 6,78$")

['34.5', '34,56', '5', '3.476,76', '50', '6,78']

In [51]:
#Encuentra sólo la parte entera de los números
re.findall(r"(\d+)(?:[\.,]\d+)*", "34.5 34,56 5$ 3.476,76 50 6,78$")

['34', '34', '5', '3', '50', '6']

In [52]:
#Encuentra sólo los números con decimales
re.findall(r"[\.\d]+,\d+", "34.5 34,56 5$ 3.476,76 50 6,78$")

['34,56', '3.476,76', '6,78']

Podemos asignar un nombre a cada grupo y luego referenciarlo en el objeto `re.Match`

In [53]:
objeto = re.search(r"(?P<letter>[ab])(?P<digit>\d)", "a3, b40, c3")

In [54]:
objeto.groupdict()

{'letter': 'a', 'digit': '3'}

In [55]:
objeto['letter'] #grupo capturado 'letter'

'a'

In [56]:
objeto[0] #el índice 0 contiene el texto completo capturado por el patrón entero

'a3'

In [57]:
objeto[1] #a partir del índice 1 aparecen los grupos capturados

'a'

In [58]:
objeto[2]

'3'

In [59]:
objeto.group() #equivale a objeto[0] y objeto.group(0)

'a3'

In [60]:
objeto.group(1) #equivale a objeto[1]

'a'

In [61]:
objeto.groups() #tupla con los grupos capturados

('a', '3')

Podemos iterar sobre todos los matchs de un texto y acceder a sus grupos

In [62]:
objetos = re.finditer(r"(?P<letter>[ab])(?P<digit>\d+)", "a3, b40, c3")
for objeto in objetos:
    print(f"letra: {objeto['letter']} número: {objeto['digit']}")

letra: a número: 3
letra: b número: 40


### División y substitución de texto
usando `re.split()` y `re.sub()`

In [63]:
#Usando un patrón para dividir
texto3 = "Los pájaros cantan, las nubes se levantan. Que caiga un chaparrón."
re.split(r"[,\.\s]+", texto3)

['Los',
 'pájaros',
 'cantan',
 'las',
 'nubes',
 'se',
 'levantan',
 'Que',
 'caiga',
 'un',
 'chaparrón',
 '']

In [64]:
#substitución de texto
re.sub(" ", "_", texto)

'El_Sol_aparece_por_la_mañana_entre_las_montañas_y_los_ríos'

In [65]:
#substitución de un patrón
re.sub("l[ao]s", "l@s", texto)

'El Sol aparece por la mañana entre l@s montañas y l@s ríos'

In [66]:
fechas

'2021-3-21, 2020-12-1, 2019-11-25, 2018-11'

In [67]:
#substitución de un grupo capturado
re.sub("(\d{4})-(\d{1,2})-(\d{1,2})", r"\3/\2/\1", fechas)

'21/3/2021, 1/12/2020, 25/11/2019, 2018-11'

In [68]:
#substitución de un grupo capturado con nombre
re.sub("(?P<año>\d{4})-(?P<mes>\d{1,2})-(?P<dia>\d{1,2})", r"\g<dia>/\g<mes>/\g<año>", fechas)

'21/3/2021, 1/12/2020, 25/11/2019, 2018-11'

In [69]:
#Uso de una función sobre el texto a substituir
def mayusculas(m):
    return m[0].upper() #el elemento 0 de un objeto Match es el texto encontrado

re.sub(r"\b\w{3}\b", mayusculas, texto) #pasa a may. palabras de 3 letras

'El SOL aparece POR la mañana entre LAS montañas y LOS ríos'

In [70]:
#podemos usar grupos etiquetados
def expandir(m):
    return m['letter'].upper()+"0"+m['digit']

re.sub(r"(?P<letter>[ab])(?P<digit>\d)", expandir, "a3 es 7 veces mayor")

'A03 es 7 veces mayor'

In [71]:
#podemos usar grupos etiquetados
def expandir(m):
    return f"{m['dia'].zfill(2)}/{m['mes'].zfill(2)}/{m['año']}"

re.sub("(?P<año>\d{4})-(?P<mes>\d{1,2})-(?P<dia>\d{1,2})", expandir, fechas)

'21/03/2021, 01/12/2020, 25/11/2019, 2018-11'

## Uso de RegEx en Pandas

In [72]:
import pandas as pd
import numpy as np

In [73]:
s = pd.Series(
     ["A", "B", "C", "Aaba", "Baca", "", np.nan, "CABA", "dog", "cat"],
     dtype="string",
 )
s

0       A
1       B
2       C
3    Aaba
4    Baca
5        
6    <NA>
7    CABA
8     dog
9     cat
dtype: string

### `str.replace()`

In [74]:
s.str.replace("A\w+|B\w+", "XX", regex=True)

0       A
1       B
2       C
3      XX
4      XX
5        
6    <NA>
7     CXX
8     dog
9     cat
dtype: string

### `str.extract()`y `str.extractall()`

In [75]:
#The extract method accepts a regular expression with at least one capture group.
pd.Series(
     ["a1", "b2", "c3", "ab"],
     dtype="string",
 ).str.extract(r"([ab])(\d)")

Unnamed: 0,0,1
0,a,1.0
1,b,2.0
2,,
3,,


In [76]:
#Podemos hacer un grupo opcional.
pd.Series(
     ["a1", "b2", "c3", "ab"],
     dtype="string",
 ).str.extract(r"([ab])(\d)?")

Unnamed: 0,0,1
0,a,1.0
1,b,2.0
2,,
3,a,


In [77]:
#Podemos poner nombres a los grupos.
pd.Series(
     ["a1b7", "b2", "c3", "ab"],
     dtype="string",
 ).str.extract(r"(?P<letter>[ab])(?P<digit>\d)?")

Unnamed: 0,letter,digit
0,a,1.0
1,b,2.0
2,,
3,a,


The `extractall` method returns every match. The result of `extractall` is always a DataFrame with a MultiIndex on its rows. The last level of the MultiIndex is named `match` and indicates the order in the subject.

In [78]:
s2 = pd.Series(["a1b7", "b2", "c3", "ab"], index=["A", "B", "C", "D"], dtype="string")
s2

A    a1b7
B      b2
C      c3
D      ab
dtype: string

In [79]:
s2.str.extractall("(?P<letter>[a-z])(?P<digit>[0-9])")

Unnamed: 0_level_0,Unnamed: 1_level_0,letter,digit
Unnamed: 0_level_1,match,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0,a,1
A,1,b,7
B,0,b,2
C,0,c,3


### `match`, `fullmatch`, `contains`

In [80]:
s = pd.Series(
     ["1", "2", "3a", "3bc", "73c", "4dx", "5b"],
     dtype="string",
 )
s

0      1
1      2
2     3a
3    3bc
4    73c
5    4dx
6     5b
dtype: string

In [81]:
pd.concat([s,s.str.contains(r"[0-3][a-z]")], axis=1)

Unnamed: 0,0,1
0,1,False
1,2,False
2,3a,True
3,3bc,True
4,73c,True
5,4dx,False
6,5b,False


In [82]:
pd.concat([s,s.str.match(r"[0-3][a-z]")], axis=1)

Unnamed: 0,0,1
0,1,False
1,2,False
2,3a,True
3,3bc,True
4,73c,False
5,4dx,False
6,5b,False


In [83]:
pd.concat([s,s.str.fullmatch(r"[0-3][a-z]")], axis=1)

Unnamed: 0,0,1
0,1,False
1,2,False
2,3a,True
3,3bc,False
4,73c,False
5,4dx,False
6,5b,False
