# Expresiones regulares en Python

- ```import re```
- La mayoría de las funciones aceptan dos parámetros: la expresión regular (string) y el texto en el cual se busca el patrón definido en la expresión regular
- La mayoría de las funciones retornan un objeto de tipo ```re.Match``` con información sobre el resultado del emparejamiento

In [1]:
texto = """En el marco de la Lucha Contra el Contrabando, 1.197 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados por efectivos de la Capitanía de Puerto Mayor “Bermejo”, junto a la Aduana, Fiscalía de Bermejo y el Servicio Nacional de Sanidad Agropecuaria e Inocuidad Alimentaria.

"Este cargamento habría sido internado de manera ilegal a nuestro país para su comercialización, lamentablemente quienes se dedican a esta actividad ilícita piensan poco en el desmedro que puede ocasionar este tipo de productos, no solamente a la economía nacional sino también a la producción boliviana", informó Eduardo Mendiola, comandante del Área Naval No. 3 “Bermejo”.

Mendiola aseveró que los operativos continuarán para evitar que haya más delitos de contrabando y otros que atentan a la economía del País"""

texto

'En el marco de la Lucha Contra el Contrabando, 1.197 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados por efectivos de la Capitanía de Puerto Mayor “Bermejo”, junto a la Aduana, Fiscalía de Bermejo y el Servicio Nacional de Sanidad Agropecuaria e Inocuidad Alimentaria.\n\n"Este cargamento habría sido internado de manera ilegal a nuestro país para su comercialización, lamentablemente quienes se dedican a esta actividad ilícita piensan poco en el desmedro que puede ocasionar este tipo de productos, no solamente a la economía nacional sino también a la producción boliviana", informó Eduardo Mendiola, comandante del Área Naval No. 3 “Bermejo”.\n\nMendiola aseveró que los operativos continuarán para evitar que haya más delitos de contrabando y otros que atentan a la economía del País'

In [2]:
import re


In [3]:
match = re.search(r"ana", texto)

# print(bool(match)) # match is not None

print(match.span())
print(match.start())
print(match.end())

print(texto[match.start():match.end()])

(258, 261)
258
261
ana


## Emparejamiento y agrupamiento

In [4]:
#re.match busca al principio del texto (^)
match = re.match(r"ana", texto)
match is None

True

In [5]:
#re.match busca al principio del texto (^)
match = re.search(r"^ana", texto)
match is None

True

In [6]:
#re.findall retorna una lista re.finditer retorna un iterable
re.findall(r"l[ao]", texto)

['la', 'la', 'la', 'la', 'la', 'la', 'la', 'la', 'la', 'la', 'lo', 'la']

In [7]:
re.findall(r"^ana", texto)

[]

In [None]:
# Probar re.finditer(pattern, string, flags=0)

In [15]:
#El objeto match permite acceder a los grupos capturados por la regex

match = re.search(r"1(\d+)", texto)

print(match.groups())
print(match.groupdict())

print(match.group(0))
print(match.group(1))

print(match.group(0,1))

('97',)
{}
197
97
('197', '97')


In [16]:
#Es posible asignar nombres a los grupos
match = re.search(r"1(?P<number>\d+)", texto)

print(match.groupdict())
print(match.group('number'))

{'number': '97'}
97


## __[Sustituciones](https://docs.python.org/3/library/re.html#re.sub)__

In [17]:
texto = "En el marco de la Lucha Contra el Contrabando, 1.197 2.130 cajas con tomate y 27 bosas de ají, \
mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados "
texto

'En el marco de la Lucha Contra el Contrabando, 1.197 2.130 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados '

In [18]:
#Reemplazar dígitos por '#'
re.sub(r"\d", "#", texto)
#re.sub(r"\d", "", texto)

'En el marco de la Lucha Contra el Contrabando, #.### #.### cajas con tomate y ## bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados '

In [19]:
#Reemplazar dígitos por '#'
re.sub(r"\d", "#", texto, count = 1)

'En el marco de la Lucha Contra el Contrabando, #.197 2.130 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados '

In [22]:
texto

'En el marco de la Lucha Contra el Contrabando, 1.197 2.130 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados '

In [22]:
#Emplear partes de la cadena en el substitución para reemplazar '.' por ','
re.sub(r'(\d)\.(\d{3})', r'\1,\2', texto)
re.sub(r'(\d)\.(\d{3})', r'\2', texto)
re.sub(r'(\d)\.(\d{3})', r'\0', texto)

'En el marco de la Lucha Contra el Contrabando, \x00 \x00 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados '

## __[Tokenización](https://docs.python.org/3/library/re.html#re.split)__

In [23]:
"uno, dos, tres".split(",")

['uno', ' dos', ' tres']

In [4]:
re.split(r"\d+", "Mis múmeros favoritos son 7 y 69")

['Mis múmeros favoritos son ', ' y ', '']

In [27]:
re.split(r"\d+", "Mis múmeros favoritos son 7 y 69", maxsplit = 1)

['Mis múmeros favoritos son ', ' y 69']

In [5]:
re.split(r"(\d+)", "Mis múmeros favoritos son 7 y 69")

['Mis múmeros favoritos son ', '7', ' y ', '69', '']

##  __[Moficadores (flags)](https://docs.python.org/3/library/re.html#re.A)__

In [6]:
match = re.search(r"a+", "AAA")
match is None

True

In [9]:
match = re.search(r"a+", "AAA", re.IGNORECASE )
match is None

False

In [11]:
#re.VERBOSE ignora los espacios en el texto de la regex
cambiar_separador_decimal_regex = re.compile(r"""(\d)             #Un dígito
                                                \.                #El punto
                                                (\d{3})           #Tres dígitos""", re.VERBOSE)
cambiar_separador_decimal_regex.sub(r'\1,\2 2', texto)

#Es posible combinar varios modificadores: re.IGNORECASE | re.VERBOSE

'En el marco de la Lucha Contra el Contrabando, 1,197 2 2,130 2 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados '

## Las dos formas de aplicar una expresión regular

- como cadena
- como objeto

In [28]:
re.sub(r'(\d)\.(\d{3})', r'\1,\2 2', texto)

'En el marco de la Lucha Contra el Contrabando, 1,197 2,130 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados '

In [12]:
# Sin re.VERBOSE
reg_ex = re.compile(r'(\d)\.(\d{3})')
reg_ex.sub(r'\1,\2', texto)

'En el marco de la Lucha Contra el Contrabando, 1,197 2,130 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados '

**Tarea**

Investigar el propósito de estos modificadores

- re.MULTILINE
- re.DOTALL

## Look around

- (?=foo)	Look ahead
- (?<=foo)	Look behind
- (?!foo)	Negative Look ahead
- (?<!foo)	Negative Look behind

In [23]:
texto = "En el marco de la Lucha Contra el Contrabando, 1.197 cajas con tomate y 27 bosas de ají, \
mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados y los propietarios \
imputados por delito de contrabando"
texto

'En el marco de la Lucha Contra el Contrabando, 1.197 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados y los propietarios imputados por delito de contrabando'

### Look ahead

In [24]:
match =  re.search(r"contrabando,", texto)
match

<re.Match object; span=(103, 115), match='contrabando,'>

In [15]:
#'Contrabando' seguido de ','
match =  re.search(r"contrabando(?=,)", texto)
match

<re.Match object; span=(103, 114), match='contrabando'>

In [30]:
#'Contrabando' NO seguido de ','

In [9]:
match =  re.search(r"contrabando(?!,)", texto)
match

<re.Match object; span=(230, 241), match='contrabando'>

### Look behind

In [10]:
match =  re.search(r",\s", texto)
match

<re.Match object; span=(45, 47), match=', '>

In [11]:
#espacio precedido por ','
match =  re.search(r"(?<=,)\s", texto)
match

<re.Match object; span=(46, 47), match=' '>

In [12]:
#espacio NO precedido por ','
match =  re.search(r"(?<!,)\s", texto)
match

<re.Match object; span=(2, 3), match=' '>

# Referencias

- [Tutorial de Expresiones Regulares en Python](https://www.datacamp.com/es/tutorial/python-regular-expression-tutorial)