<a href="https://colab.research.google.com/github/vicentcamison/idal_ia3/blob/main/5%20Procesado%20del%20lenguaje%20natural/Sesion%201/NLP_02_Expresiones_regulares.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Expresiones regulares en Python
El módulo `re` tiene las siguientes funciones de Regex:
- `findall`: Returns a list containing all matches  
- `search`: Returns a Match object if there is a match anywhere in the string  
- `match`: Returns a Match object if there is a match at the start of the string  
- `split`: Returns a list where the string has been split at each match  
- `sub`: Replaces one or many matches with a string  

In [None]:
import re

Las expresiones regulares son patrones formados por:  
- texto  
- Metacaracteres  
- Secuencias especiales  
- Sets  

In [None]:
texto = 'El Sol aparece por la mañana entre las montañas y los ríos'

### Texto

In [None]:
re.search("aña", texto)

<re.Match object; span=(23, 26), match='aña'>

In [None]:
#indexamos del inicio al final del span
texto[23:26]

'aña'

Los objetos de tipo `re.Match` tienen distintos atributos, pero el texto marcado está en el atributo `group(0)` o elemento [0]

In [None]:
m = re.search("aña", texto)
m[0].upper() #m[0] equivale a  re.search("aña", texto).group(0)

'AÑA'

In [None]:
texto[m.start():m.end()]

'aña'

Los objetos `re.match` también se pueden usar como valor booleano (`True` si el patrón regular existe en la cadena de texto.

In [None]:
if re.search("aña", texto):
    print("True")
else:
    print("False")

True


Para buscar todas las apariciones del patrón en el texto (sólo el texto) usamos `re.findall()`

In [None]:
re.findall("aña", texto)

['aña', 'aña']

Para obtener un objeto `Match` por cada patrón encontrado hay que usar la función `re.finditer()`

In [None]:
patrones = re.finditer("aña", texto)
patrones

<callable_iterator at 0x7f05e47013d0>

In [None]:
for p in patrones:
    print(p)

<re.Match object; span=(23, 26), match='aña'>
<re.Match object; span=(43, 46), match='aña'>


#### Metacaracteres

In [None]:
texto

'El Sol aparece por la mañana entre las montañas y los ríos'

In [None]:
re.findall("l.s", texto)
# el metacarácter '.' hace un match con cualquier caracter excepto una newline o un espacio

['las', 'los']

In [None]:
re.findall("las?", texto)
# el metacarácter '?' hace un match con el carácter anterior: debe encontrarlo 0 o 1 veces

['la', 'las']

In [None]:
re.findall("las?", 'la, las, lass, lasss')

['la', 'las', 'las', 'las']

In [None]:
re.findall("las+", 'la, las, lass, lasss')
# el metacarácter '+' hace un match con el crácter anterior: debe encontrarlo 1 o más veces

['las', 'lass', 'lasss']

In [None]:
re.findall("las*", 'la, las, lass, lasss')
# el metacarácter '*' hace un match con el crácter anterior: debe encontrarlo 0 o más veces

['la', 'las', 'lass', 'lasss']

### Secuencias especiales

In [None]:
texto2 = "La caña es débil"

`\w`: caracteres alfanuméricos (unicode)

In [None]:
re.findall("\w", texto2)

['L', 'a', 'c', 'a', 'ñ', 'a', 'e', 's', 'd', 'é', 'b', 'i', 'l']

In [None]:
re.findall("\w+", texto2)

['La', 'caña', 'es', 'débil']

In [None]:
#cuidado porque el rango de caracteres A-Z no incluye caracteres unicode
# (es decir, caracteres como 'ñ' o acentos)
re.findall("[A-Za-z0-9_]+", texto2)

['La', 'ca', 'a', 'es', 'd', 'bil']

In [None]:
#La '\w' sí que identifica caracteres unicode extraños incluso
re.findall("\w+", "mañana, adiøs")

['mañana', 'adiøs']

In [None]:
texto2 = "Hay 35 alumnos en 1º, pero sólo 7 en 4º"

`\d`: dígitos

In [None]:
re.findall("\d+", texto2)
# Como se puede apreciar, identifica únicamente los dígitos sin distinguir si se trata
# de un cardinal o ordinal

['35', '1', '7', '4']

In [None]:
re.findall(r"\w+", texto2)
# Ponerle una r delante del texto a Python le dice que ha de tratar el texto de forma 'raw'
# Es decir, Python normalmente ignorará las barras \ en los strings ('\n', por ejemplo, lo
# tomará como un salto de línea).

# Una mejor explicación la podemos encontrar en stack overflow, en el texto siguiente:

['Hay', '35', 'alumnos', 'en', '1º', 'pero', 'sólo', '7', 'en', '4º']



r means the string will be treated as raw string.

    When an 'r' or 'R' prefix is present, a character following a backslash is included in the string without change, and all backslashes are left in the string. For example, the string literal r"\n" consists of two characters: a backslash and a lowercase 'n'. String quotes can be escaped with a backslash, but the backslash remains in the string; for example, r"\"" is a valid string literal consisting of two characters: a backslash and a double quote; r"\" is not a valid string literal (even a raw string cannot end in an odd number of backslashes). Specifically, a raw string cannot end in a single backslash (since the backslash would escape the following quote character). Note also that a single backslash followed by a newline is interpreted as those two characters as part of the string, not as a line continuation.


Por defecto, es conveniente usar la **r** delante de todas las expresiones regulares, así nos evitamos problemas


`\b`: inicio o fin de palabra

In [None]:
texto = "la blanca lavandería"

In [None]:
re.findall(r"\bla\w*", texto) #palabras que COMIENZAN por 'la'

['la', 'lavandería']

In [None]:
#por contra
re.findall(r"la\w*", texto) #palabras que CONTIENEN 'la'

['la', 'lanca', 'lavandería']

In [None]:
re.findall(r"\w*os\b", "los ríos y otras oscuras formaciones geológicas") #palabras que terminan en 'os'

['los', 'ríos']

In [None]:
#por contra
re.findall(r"\w*os", "los ríos y otras oscuras formaciones geológicas")

['los', 'ríos', 'os']

### Sets

In [None]:
texto = 'los soles y las lisas'

In [None]:
re.findall("l\ws", texto)

['los', 'les', 'las', 'lis']

In [None]:
re.findall("l[oa]s", texto)

['los', 'las']

In [None]:
re.findall("[a-zA-Z]+", texto) #cuidado: la `ñ` no está en el alfabeto a-z

['los', 'soles', 'y', 'las', 'lisas']

### cuantificadores

In [None]:
texto = 'El Sol aparece por la mañana entre las montañas y los ríos'

In [None]:
re.findall("\w{4,}", texto) #palabras de 4 o más caracteres

#Literalmente, la expresión regular dice: encuéntrame 4 o más caracteres unicode sin estar separados por
# salto de línea o espacio

['aparece', 'mañana', 'entre', 'montañas', 'ríos']

In [None]:
re.findall(r"\b\w{2,4}\b", texto) #palabras dentre 2 y 4 caracteres

#Literalmente, la expresión regular dice: encuéntrame de 2 a 4 caracteres unicode, y que tanto a la izquierda como
# a la derecha de este conjunto de caracteres encuentre el inicio y final de palabra

['El', 'Sol', 'por', 'la', 'las', 'los', 'ríos']

### Ejercicio
Detecta palabras que empiezan por `m` con una longitud entre 3 y 5 caracteres en el siguiente texto

In [None]:
texto = 'más o menos me da igual, mastodonte inhumano'
re.findall(r"\bm\w{2,4}\b", texto)

['más', 'menos']

### Captura de grupos
Un grupo es un patrón RegEx que queremos obtener (capturar) dentro de una patrón de expresión regular más amplio

In [None]:
texto = 'Hay 35 alumnos en 1º pero sólo 7 en 4º'

Si nosotros queremos capturar los números ordinales, podemos hacerlo encontrando los caracteres que van seguidos de º:

In [None]:
re.findall(r"\dº", texto)

['1º', '4º']

Sin embargo, si nuestro interés está en capturar únicamente el dígito, eliminando el ordinal, podemos poner entre paréntesis aquellos elementos que queremos que se nos devuelvan:

In [None]:
re.findall(r"(\d)º", texto) #capturamos 1 dígito sólo si va seguido de 'º'

['1', '4']

In [None]:
#Si hay varios grupos findall devuelve una tupla
texto = 'Hay 35 alumnos en 1A pero sólo 7 en 4B'
re.findall(r"(\d)([A-Z])", texto) #capturamos 1 dígito sólo si va seguido de 'º'

[('1', 'A'), ('4', 'B')]

In [None]:
#obtener una fecha con patrón yyyy-mm-dd
fechas = "2021-3-21, 2020-12-1, 2019-11-25, 2018-11"
re.findall("\d{4}-\d{1,2}-\d{1,2}", fechas)

['2021-3-21', '2020-12-1', '2019-11-25']

In [None]:
#obtener sólo el mes en un patrón yyyy-mm-dd
re.findall("\d{4}-(\d{1,2})-\d{1,2}", fechas)

['3', '12', '11']

Si queremos usar los paréntesis para aplicar un metacaracter o un cuantificador a un patrón, usamos un *non-capturing group* mediante la sintaxis expecial `(?:...)`

In [None]:
#Encuentra todos los números
re.findall(r"\d+(?:[\.,]\d+)*", "34.5 34,56 5 3.476,76")

#Explicado de otra forma, usar un paréntesis donde los dos primeros caracteres son '(?:' implica que
# no se va a utilizar para captura, sino para agrupar metacaracteres.
# A efectos de la '*' final, se va a usar el contenido íntegro del paréntesis como si se tratara de
# un único metacaracter

# El metacaracter completo explicado quiere decir:
#  \d+ : un conjunto de uno o más metacaracteres numéricos
#  (?:[\.,]d+)* un conjunto de 0 o más veces (por el * del final) de una coma o punto [\.,]
#                seguido de uno o más dígitos \d+

# Esto me encuentra combinaciones de números, con comas y puntos por enmedio

['34.5', '34,56', '5', '3.476,76']

### Ejercicio
El mes de la última fecha (2018-11) no se ha detectado, ¿cómo podemos detectarlo?

In [None]:
re.findall("\d{4}-(\d{1,2})(?:-\d{1,2})?", fechas)
#Hemos pasado de "\d{4}-(\d{1,2})-\d{1,2}" a "\d{4}-(\d{1,2})(?:-\d{1,2})?"
# Si comparamos la parte que ha cambiado: -\d{1,2}" -> (?:-\d{1,2})?
# Lo que hemos hecho es introducir todo el conjunto final entre paréntesis (?:  ),
# y ponerle al final un ?, para decirle al regex que el día podría aparecer 0 o 1 veces

['3', '12', '11', '11']

## Grupos numerados
Podemos asignar un nombre a cada grupo y luego referenciarlo en el objeto `re.Match`

In [None]:
#buscamos letra seguida de dígito
objeto = re.search(r"(?P<letra>[ab])?(?P<dígito>\d)", "a3, b4, 5")

In [None]:
objeto.groupdict()

{'letra': 'a', 'dígito': '3'}

In [None]:
objeto['letra'] #grupo capturado 'letter'

'a'

In [None]:
objeto[0] #texto completo capturado por el patrón

'a3'

In [None]:
#Para buscar todos los matches hay que usar una búsqueda iterativa
for objeto in re.finditer(r"(?P<letra>[ab])?(?P<dígito>\d)", "a3, b4"):
    print(objeto.groupdict())

{'letra': 'a', 'dígito': '3'}
{'letra': 'b', 'dígito': '4'}


### División y substitución de texto
usando `re.split()` y `re.sub()`

In [None]:
#Usando un patrón para dividir
texto3 = "Los pájaros cantan, las nubes se levantan. Que sí, que no, que caiga un chaparrón."
re.split(r"[,.\s]+", texto3)
# divide el texto cuando encuentra una coma, punto o espacio (\s)

['Los',
 'pájaros',
 'cantan',
 'las',
 'nubes',
 'se',
 'levantan',
 'Que',
 'sí',
 'que',
 'no',
 'que',
 'caiga',
 'un',
 'chaparrón',
 '']

In [None]:
#substitución de texto
texto = 'El Sol aparece por la mañana entre las montañas y los ríos'
re.sub(" ", "_", texto)

'El_Sol_aparece_por_la_mañana_entre_las_montañas_y_los_ríos'

In [None]:
#substitución de un patrón
re.sub("l[ao]s", "l@s", texto)

In [None]:
#substitución de un grupo capturado

#cada grupo que se le señale, le asignará el grupo \1, \2, \3, etc...

fechas = "2021-3-21, 2020-12-1, 2019-11-25, 2018-11"
re.sub("(\d{4})-(\d{1,2})-(\d{1,2})", r"\3/\2/\1", fechas)

In [None]:
#Uso de una función sobre el texto a substituir
def mayusculas(m):
    return m[0].upper() #el elemento 0 de un objeto Match es el texto encontrado

re.sub(r"\b\w{3}\b", mayusculas, texto) #pasa a may. palabras de 3 letras

'El SOL aparece POR la mañana entre LAS montañas y LOS ríos'

## Uso de RegEx en Pandas

In [None]:
import pandas as pd
import numpy as np

In [None]:
s = pd.Series(
     ["A", "B", "C", "Aaba", "Baca", "", np.nan, "CABA", "dog", "cat"],
     dtype="string",
 )
s

0       A
1       B
2       C
3    Aaba
4    Baca
5        
6    <NA>
7    CABA
8     dog
9     cat
dtype: string

### `str.replace()`

In [None]:
s.str.replace("A\w+|B\w+", "XX", regex=True)

0       A
1       B
2       C
3      XX
4      XX
5        
6    <NA>
7     CXX
8     dog
9     cat
dtype: string

### `str.extract()`y `str.extractall()`

In [None]:
#The extract method accepts a regular expression with at least one capture group.
pd.Series(
     ["a1", "b2", "c3"],
     dtype="string",
 ).str.extract(r"([ab])(\d)")

Unnamed: 0,0,1
0,a,1.0
1,b,2.0
2,,


In [None]:
#Podemos hacer un grupo opcional.
pd.Series(
     ["a1", "b2", "c3", "ab"],
     dtype="string",
 ).str.extract(r"([ab])?(\d)")

Unnamed: 0,0,1
0,a,1.0
1,b,2.0
2,,3.0
3,,


In [None]:
#Podemos poner nombres a los grupos.
pd.Series(
     ["a1,b7", "b2", "c3"],
     dtype="string",
 ).str.extract(r"(?P<letter>[ab])?(?P<digit>\d)")

Unnamed: 0,letter,digit
0,a,1
1,b,2
2,,3


The `extractall` method returns every match. The result of `extractall` is always a DataFrame with a MultiIndex on its rows. The last level of the MultiIndex is named `match` and indicates the order in the subject.

In [None]:
s2 = pd.Series(["a1a2", "b1", "c1"], index=["A", "B", "C"], dtype="string")
s2

A    a1a2
B      b1
C      c1
dtype: string

In [None]:
s2.str.extractall("(?P<letter>[a-z])(?P<digit>[0-9])")

Unnamed: 0_level_0,Unnamed: 1_level_0,letter,digit
Unnamed: 0_level_1,match,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0,a,1
A,1,a,2
B,0,b,1
C,0,c,1


### `match`, `fullmatch`, `contains`

In [None]:
s = pd.Series(
     ["1", "2", "3a", "3b", "03c", "4dx", "5b"],
     dtype="string",
 )
s

0      1
1      2
2     3a
3     3b
4    03c
5    4dx
6     5b
dtype: string

In [None]:
pd.concat([s,s.str.contains(r"[0-3][a-z]")], axis=1)

Unnamed: 0,0,1
0,1,False
1,2,False
2,3a,True
3,3b,True
4,03c,True
5,4dx,False
6,5b,False


In [None]:
pd.concat([s,s.str.match(r"[0-9][a-z]")], axis=1)

Unnamed: 0,0,1
0,1,False
1,2,False
2,3a,True
3,3b,True
4,03c,False
5,4dx,True
6,5b,True


In [None]:
pd.concat([s,s.str.fullmatch(r"[0-9][a-z]")], axis=1)

Unnamed: 0,0,1
0,1,False
1,2,False
2,3a,True
3,3b,True
4,03c,False
5,4dx,False
6,5b,True
