# Expresiones regulares

Las expresiones regulares son cadenas que definen un patrón que permite encontrar cadenas que emparejan dicho patrón. Algunas aplicaciones de las expresiones regulares son:

- Validación de datos
- Búsqueda y reemplazo
- Extracción de datos de un texto

## Emparejamiento literal
- ```ana```
- ```Ana```

## Emparejamiento por clases y rangos
- ```amig[oa]```
- ```l[ao]```
- ```[0-9][0-9]```
- ```[a-z]```
- ```[A-Z][A-Za-z]```
- ```[^0-9]```
- ```[AZ] = A|Z```

## Meta caracteres

Caracteres que representan clases: dígitos, espacios, palabras, etc.

- ```.``` (Punto - cualquier caracter excepto los saltos de línea)
- ```\.``` - 'escapar' un meta caracter
- ```\w = [a-zA-Z0-9_]``` (word)
- ```\W```  (not word)
- ```\d``` (digit)
- ```\D``` (not digit)
- ```\s``` (space - \t, \r, \n)
- ```\S``` (not space)

## Anclaje de la búsqueda al principio o al final
- ```^ - ^[EM]``` (al principio)
- ```$ - \.$``` (al final)
- ```\b - \bp, s\b``` (boundary)
- ```\B - \Bp``` (not boundary)

Probar con y sin modo **multine**.

## Cuantificadores

- ```*``` Cero o más repeticiones ```1\d*```
- ```+``` Uno o más repeticiones ```1\d+```
- ```?``` Cero o una repetición ```1\d?```
- ```{m,n}``` Entre ```m``` y ```n``` repeticiones```1\d{1,3}```
- ```{m,}``` Al menos ```m```repeticiones
- ```{m}``` Exactamente ```m```repeticiones

Otros ejemplos (podemos describir qué patrones se está tratando de buscar?)

- ```\b[aeiou][a-z]*\b```


**Tarea**
- Averiguar la diferencia en el comportamiento de los cuantificadores cuando __[operan en modo *greedy* o no *greedy* (glotón)](https://blog.finxter.com/python-regex-greedy-vs-non-greedy-quantifiers/)__
- Elaborar algunos ejemplos que muestren la diferencia

## Agrupamiento

El agrupamiento facilita acceso al contenido emparejado con un patrón.

- ```1\d+  (1\d+)  1(\d+)   1(\d)+``` 

# Expresiones regulares en Python

- ```import re```
- La mayoría de las funciones aceptan dos parámetros: la expresión regular (string) y el texto en el cual se busca el patrón definido en la expresión regular
- La mayoría de las funciones retornan un objeto de tipo ```re.Match``` con información sobre el resultado del emparejamiento

In [1]:
texto = """En el marco de la Lucha Contra el Contrabando, 1.197 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados por efectivos de la Capitanía de Puerto Mayor “Bermejo”, junto a la Aduana, Fiscalía de Bermejo y el Servicio Nacional de Sanidad Agropecuaria e Inocuidad Alimentaria.

"Este cargamento habría sido internado de manera ilegal a nuestro país para su comercialización, lamentablemente quienes se dedican a esta actividad ilícita piensan poco en el desmedro que puede ocasionar este tipo de productos, no solamente a la economía nacional sino también a la producción boliviana", informó Eduardo Mendiola, comandante del Área Naval No. 3 “Bermejo”.

Mendiola aseveró que los operativos continuarán para evitar que haya más delitos de contrabando y otros que atentan a la economía del País"""
texto

'En el marco de la Lucha Contra el Contrabando, 1.197 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados por efectivos de la Capitanía de Puerto Mayor “Bermejo”, junto a la Aduana, Fiscalía de Bermejo y el Servicio Nacional de Sanidad Agropecuaria e Inocuidad Alimentaria.\n\n"Este cargamento habría sido internado de manera ilegal a nuestro país para su comercialización, lamentablemente quienes se dedican a esta actividad ilícita piensan poco en el desmedro que puede ocasionar este tipo de productos, no solamente a la economía nacional sino también a la producción boliviana", informó Eduardo Mendiola, comandante del Área Naval No. 3 “Bermejo”.\n\nMendiola aseveró que los operativos continuarán para evitar que haya más delitos de contrabando y otros que atentan a la economía del País'

In [3]:
import re

In [6]:
match = re.search(r"ana", texto)
print(bool(match))
print(match.span())
print(match.start())
print(match.end())
print(texto[match.start():match.end()])

True
(258, 261)
258
261
ana


## Emparejamiento y agrupamiento

In [7]:
#re.match busca al principio del texto (^)
match = re.match(r"ana", texto)
match is None

True

In [8]:
#re.match busca al principio del texto (^)
match = re.search(r"^ana", texto)
match is None

True

In [9]:
#re.findall retorna una lista re.finditer retorna un iterable
re.findall("l[ao]", texto)

['la', 'la', 'la', 'la', 'la', 'la', 'la', 'la', 'la', 'la', 'lo', 'la']

In [13]:
#El objeto match permite acceder a los grupos capturados por la regex

match = re.search(r"1(\d+)", texto)
print(match.groups())
# print(match.groupdict())
print(match.group(0))
print(match.group(1))
print(match.group(0,1))

('97',)
197
97
('197', '97')


In [11]:
#Es posible asignar nombres a los grupos
match = re.search(r"1(?P<number>\d+)", texto)
print(match.groups())
print(match.groupdict())
print(match.group('number'))

('97',)
{'number': '97'}
97


## __[Sustituciones](https://docs.python.org/3/library/re.html#re.sub)__

In [15]:
texto = "En el marco de la Lucha Contra el Contrabando, 1.197 cajas con tomate y 27 bosas de ají, \
mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados"
texto

'En el marco de la Lucha Contra el Contrabando, 1.197 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados'

In [16]:
#Reemplazar dígitos por '#'
re.sub(r"\d", "#", texto)

'En el marco de la Lucha Contra el Contrabando, #.### cajas con tomate y ## bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados'

In [17]:
#Reemplazar dígitos por '#'
re.sub(r"\d", "#", texto, count = 1)

'En el marco de la Lucha Contra el Contrabando, #.197 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados'

In [20]:
#Emplear partes de la cadena en el substitución para reemplazar '.' por ','
re.sub(r'(\d)\.(\d{3})', r'\1,\2', texto)

'En el marco de la Lucha Contra el Contrabando, 1,197197 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados'

## __[Tokenización](https://docs.python.org/3/library/re.html#re.split)__

In [21]:
"uno, dos, tres".split(",")

['uno', ' dos', ' tres']

In [22]:
re.split(r"\d+", "Mis múmeros favoritos son 7 y 69")

['Mis múmeros favoritos son ', ' y ', '']

In [23]:
re.split(r"\d+", "Mis múmeros favoritos son 7 y 69", maxsplit = 1)

['Mis múmeros favoritos son ', ' y 69']

In [25]:
re.split(r"(\d+)", "Mis múmeros favoritos son 7 y 69")

['Mis múmeros favoritos son ', '7', ' y ', '69', '']

In [27]:
[7, 'a']

[7, 'a']

##  __[Moficadores (flags)](https://docs.python.org/3/library/re.html#re.A)__

In [28]:
re.search(r"a+", "AAA")

In [21]:
re.search(r"a+", "AAA", re.IGNORECASE)

<re.Match object; span=(0, 3), match='AAA'>

In [37]:
#re.VERBOSE ignora los espacios en el texto de la regex
cambiar_separador_decimal_regex = re.compile(r"""(\d)             #Un dígito
                                                \.                #El punto
                                                (\d{3})           #Tres dígitos""", re.VERBOSE)
cambiar_separador_decimal_regex.sub(r'\1,\2', texto)

#Es posible combinar varios modificadores: re.IGNORECASE | re.MULTILINE

'En el marco de la Lucha Contra el Contrabando, 1,197 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados'

**Tarea**

Investigar el propósito de estos modificadores

- re.MULTILINE
- re.DOTALL

## Look around

- (?=foo)	Look ahead
- (?<=foo)	Look behind
- (?!foo)	Negative Look ahead
- (?<!foo)	Negative Look behind

In [29]:
texto = "En el marco de la Lucha Contra el Contrabando, 1.197 cajas con tomate y 27 bosas de ají, \
mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados y los propietarios \
imputados por delito de contrabando"
texto

'En el marco de la Lucha Contra el Contrabando, 1.197 cajas con tomate y 27 bosas de ají, mercadería de contrabando, al interior de una vivienda en la comunidad Talita, fueron decomisados y los propietarios imputados por delito de contrabando'

### Look ahead

In [30]:
match =  re.search(r"contrabando,", texto)
match

<re.Match object; span=(103, 115), match='contrabando,'>

In [31]:
#'Contrabando' seguido de ','
match =  re.search(r"contrabando(?=,)", texto)
match

<re.Match object; span=(103, 114), match='contrabando'>

In [30]:
#'Contrabando' NO seguido de ','

In [32]:
match =  re.search(r"contrabando(?!,)", texto)
match

<re.Match object; span=(230, 241), match='contrabando'>

### Look behind

In [34]:
match =  re.search(r",\s", texto)
match

<re.Match object; span=(45, 47), match=', '>

In [35]:
#espacio precedido por ','
match =  re.search(r"(?<=,)\s", texto)
match

<re.Match object; span=(46, 47), match=' '>

In [36]:
#espacio NO precedido por ','
match =  re.search(r"(?<!,)\s", texto)
match

<re.Match object; span=(2, 3), match=' '>

# Referencias

- __[Pythex](https://pythex.org/)__

- __[Regular Expression HOWTO](https://docs.python.org/3/howto/regex.html#module-level-functions)__

- __[Regular expression operations](https://docs.python.org/3/library/re.html#module-contents)__

- __[Python regex - Raw String Notation](https://docs.python.org/3/library/re.html#raw-string-notation)__

- __[Regex Cheat Sheet: A Quick Guide to Regular Expressions in Python](https://www.dataquest.io/blog/regex-cheatsheet/)__

- __[Regular Expression cheat sheet](https://web.mit.edu/hackl/www/lab/turkshop/slides/regex-cheatsheet.pdf)__

- __[RegexBuddy - Learn, Create, Understand, Test, Use and Save Regular Expressions](https://www.regexbuddy.com/)__

- __[Decomisan más de mil cajas con tomate de contrabando en Bermejo](https://www.lostiempos.com/actualidad/pais/20210807/decomisan-mas-mil-cajas-tomate-contrabando-bermejo)__

# Ejercicio

In [10]:
errores = [
"File 'BW-CDR-20210803130000-2-005056881C45-227529.csv' from 'as13.voip.evolveip.net' failed to load"
,"File 'BW-CDR-20210803130000-2-2C44FD9144F8-140243.csv' from 'as12.voip.evolveip.net' failed to load"
,"File 'BW-CDR-20210803130000-2-2C44FD910A90-222131.csv' from 'as1.voip.evolveip.net' failed to load"
,"File 'BW-CDR-20210803130000-2-2C44FD914A90-216977.csv' from 'as2.voip.evolveip.net' failed to load"
,"File 'BW-CDR-20210803130000-2-2C44FD998A90-138209.csv' from 'as16.voip.evolveip.net' failed to load"
,"File 'BW-CDR-20210803130000-2-2C44FD911688-223036.csv' from 'as11.voip.evolveip.net' failed to load"
,"File 'BW-CDR-20210803130000-2-E4434B14ADD4-086428.csv' from 'as17.voip.evolveip.net' failed to load"
,"File 'BW-CDR-20210803130003-2-FC15B4F7B7C0-138403.csv' from 'as15.voip.evolveip.net' failed to load"
,"File 'BW-CDR-20210803130000-2-E4434B14AA94-087718.csv' from 'as18.voip.evolveip.net' failed to load"
,"File 'BW-CDR-20210803131500-2-2C44FD910A90-222132.csv' from 'as1.voip.evolveip.net' failed to load"
]

errores

["File 'BW-CDR-20210803130000-2-005056881C45-227529.csv' from 'as13.voip.evolveip.net' failed to load",
 "File 'BW-CDR-20210803130000-2-2C44FD9144F8-140243.csv' from 'as12.voip.evolveip.net' failed to load",
 "File 'BW-CDR-20210803130000-2-2C44FD910A90-222131.csv' from 'as1.voip.evolveip.net' failed to load",
 "File 'BW-CDR-20210803130000-2-2C44FD914A90-216977.csv' from 'as2.voip.evolveip.net' failed to load",
 "File 'BW-CDR-20210803130000-2-2C44FD998A90-138209.csv' from 'as16.voip.evolveip.net' failed to load",
 "File 'BW-CDR-20210803130000-2-2C44FD911688-223036.csv' from 'as11.voip.evolveip.net' failed to load",
 "File 'BW-CDR-20210803130000-2-E4434B14ADD4-086428.csv' from 'as17.voip.evolveip.net' failed to load",
 "File 'BW-CDR-20210803130003-2-FC15B4F7B7C0-138403.csv' from 'as15.voip.evolveip.net' failed to load",
 "File 'BW-CDR-20210803130000-2-E4434B14AA94-087718.csv' from 'as18.voip.evolveip.net' failed to load",
 "File 'BW-CDR-20210803131500-2-2C44FD910A90-222132.csv' from 'as1

## 1 Genere la lista de archivos

['BW-CDR-20210803130000-2-005056881C45-227529.csv',
 'BW-CDR-20210803130000-2-2C44FD9144F8-140243.csv',
 'BW-CDR-20210803130000-2-2C44FD910A90-222131.csv',
 'BW-CDR-20210803130000-2-2C44FD914A90-216977.csv',
 'BW-CDR-20210803130000-2-2C44FD998A90-138209.csv',
 'BW-CDR-20210803130000-2-2C44FD911688-223036.csv',
 'BW-CDR-20210803130000-2-E4434B14ADD4-086428.csv',
 'BW-CDR-20210803130003-2-FC15B4F7B7C0-138403.csv',
 'BW-CDR-20210803130000-2-E4434B14AA94-087718.csv',
 'BW-CDR-20210803131500-2-2C44FD910A90-222132.csv']

## 2 Genere la lista de tuplas (archivo, host)

[('BW-CDR-20210803130000-2-005056881C45-227529.csv', 'as13.voip.evolveip.net'),
 ('BW-CDR-20210803130000-2-2C44FD9144F8-140243.csv', 'as12.voip.evolveip.net'),
 ('BW-CDR-20210803130000-2-2C44FD910A90-222131.csv', 'as1.voip.evolveip.net'),
 ('BW-CDR-20210803130000-2-2C44FD914A90-216977.csv', 'as2.voip.evolveip.net'),
 ('BW-CDR-20210803130000-2-2C44FD998A90-138209.csv', 'as16.voip.evolveip.net'),
 ('BW-CDR-20210803130000-2-2C44FD911688-223036.csv', 'as11.voip.evolveip.net'),
 ('BW-CDR-20210803130000-2-E4434B14ADD4-086428.csv', 'as17.voip.evolveip.net'),
 ('BW-CDR-20210803130003-2-FC15B4F7B7C0-138403.csv', 'as15.voip.evolveip.net'),
 ('BW-CDR-20210803130000-2-E4434B14AA94-087718.csv', 'as18.voip.evolveip.net'),
 ('BW-CDR-20210803131500-2-2C44FD910A90-222132.csv', 'as1.voip.evolveip.net')]

# 3 - Valida si una cadena es un numero entero

- -10, 12, 0, 1 -1
- A10, x20