## EXPRESIONES REGULARES

Expresiones que sirven para la busqueda de patrones en un texto por medio del uso de "cadenas especificas".

### **Log de ejemplo 1.** procedimiento manual. 

In [None]:
log = "July 31 07:51:48 mycomputer bad_process[12345]: ERROR Performing package upgrade"

# Tenemos un mensaje que sale en un log. Nuestro interes es extraer partes de el mensaje. 

index = log.index("[")

"""De manera manual extraemos la posici√≥n √≠ndice del caracter "["
Al conocer con exactitud donde est√° el n√∫mero que queremos extraer podemos:
recorrer la cadena desde esta posici√≥n hasta 5 indices m√°s. Logrando extraer el n√∫mero. 
"""
print(log[index+1:index+6])


12345


## Utilizando el m√≥dulo de expresiones regulares

In [15]:
import re

log = "July 31 07:51:48 mycomputer bad_process[12345]: ERROR Performing package upgrade"

# Podemos notar como usamos un patron de busqueda. 
regex = r"\[(\d+)\]"

# Utilizamos la funci√≥n de busqueda, le pasamos el argumento y la cadena. 

result = re.search(regex, log)

# result es un tipo de objeto re.Match
"""
<re.Match object; span=(39, 46), match='[12345]'>

la funci√≥n re.search() devuelve un objeto Match porque el registro de cadenas contiene una coincidencia con la expresi√≥n regular. El objeto Match tiene un m√©todo group() que devuelve los grupos capturados de la coincidencia. En este caso, el √∫nico grupo capturado es el n√∫mero, que es devuelto por la expresi√≥n result[1].
"""

print(result[1])

12345


## Desglose expresi√≥n regular

> r"\[(\d+)\]"

r"" : Hace referencia a un "raw string" , permite que los caracteres (\n, \t, \\, etc.) no se interpretan, sino que se pasan "crudos" directamente a la expresi√≥n regular.

üîπ Qu√© pasa con un string normal en Python

En Python, al escribir un string sin la r, Python primero interpreta los caracteres de escape antes de pasarlos a la expresi√≥n regular.

s = "\n"    

Python interpreta esto como un salto de l√≠nea
print(s)    :  Salto de l√≠nea, no ves "\n"


Si intentas hacer una regex con:

regex = "\d+"


‚û°Ô∏è Python piensa: \d no es un escape v√°lido dentro de un string normal, as√≠ que lo trata como d.
Es decir, la regex resultante es "d+", no ‚Äú\d+‚Äù.

üîπ Qu√© pasa con un raw string

Cuando agregas la r delante, Python no interpreta los escapes, sino que los deja tal cual est√°n escritos.

s = r"\n"
print(s)    # Se imprime \n (dos caracteres: \ y n)


Si haces:

regex = r"\d+"


‚û°Ô∏è Python env√≠a al motor de regex exactamente el texto \d+.
El motor de regex sabe que \d significa ‚Äúd√≠gito‚Äù, as√≠ que funciona como esperas.

---

‚û°Ô∏è **```2. \[ \]```**

Los corchetes son caracteres especiales en regex, pero aqu√≠ se escapan con \.

\[ significa un corchete abierto literal [

\] significa un corchete cerrado literal ]

Por lo tanto, la expresi√≥n busca texto que est√© entre corchetes.

---

‚û°Ô∏è **```3. (\d+)```**

Los par√©ntesis () forman un grupo de captura. Lo que coincida dentro de ellos se podr√° recuperar aparte.

\d significa un d√≠gito num√©rico (equivalente a [0-9]).

+ significa uno o m√°s d√≠gitos.

En conjunto, (\d+) captura un n√∫mero entero de cualquier longitud.

## **GREP** 

Herramienta cl√°sica de Linux/Unix que sirve para buscar texto en archivos utilizando la linea de comandos.

Podemos utilizar: 

```bash
grep thon usr\share\dictwords
```

Utilizamos grep para en que palabras del archivo "usr\share\dictwords" aparece la cadena "thon"

Retornar√° una lista de palabras que contienen esta cadena, y  con la cadena en cuesti√≥n  resaltada.

Se puede utilizar el par√°metro **-i** para que ignore distinci√≥n entre maysuculas y minusculas. 

```bash
grep -i thon usr\share\dictwords
```

---

### Busqueda por un patr√≥n de "."

Permite que conincida con cualquier cosa por lo tanto: 

```bash
grep l.rts usr\share\dictwords
```

Nos puede traer un n√∫mero n de coincidencias (Palabras) donde el punto puede ser cualquier caracter: 

Ejm: 
```alerts``` => Vinede de : al.rts 
```blurts``` => Vinede de : bl.rts
```flirts``` => Vinede de : fl.rts

El punto en el patro fue sustituido por letras diferente. Nos permiti√≥ encontrar diferentes entradas sin conocer ninguna de estas palabras. Podemos usar estos patrones para buscar. 

---

## **El circunflejo [^] y el s√≠mbolo del d√≥lar [$] son caracteres de anclaje.**

El circunflejo y el s√≠mbolo del d√≥lar coinciden espec√≠ficamente con el inicio y el final de una l√≠nea o cadena, pero no necesariamente con las palabras en s√≠.

### Buscar todas las cadenas que comienzan por un patron 

Podemos utilizar: 

```bash
grep ^fruit usr\share\dictwords
```

traera todas las palabras que comienzen por este patron.  Ejm:

```fruit```ing |  ```fruit```ion  |  ```fruit```less 

---

### Buscar todas las palabras que terminan por un patron 

Podemos utilizar: 

```bash
grep cat$ usr\share\dictwords
```

traera todas las palabras que comienzen por este patron.  Ejm:

copy```cat``` |  du```cat```  |  lot```cat```

---

---

## **Emparejamiento simple en python**


In [18]:
import re

# Recordemos: Nos retorna un objeto re.Match que nos confirma la coincidencia, en caso contrario retorna None. 

result = re.search(r"aza", "plaza")
print(result)

<re.Match object; span=(2, 5), match='aza'>


In [None]:
import re

# Podemos notar que adem√°s el objeto re.Match retorna los indices poscionales donde est√° la primera coincidencia.  
result = re.search(r"aza", "bazaar del azar")
print(result)

# <re.Match object; span=(1, 4), match='aza'> indices del 1 al 4 sin cerrado al principio abierto al final es decir:  (1,2,3) 

<re.Match object; span=(1, 4), match='aza'>


#### Notemos que devolver√° el patron de busqueda NO LA PALABRA QUE LO CONTIENE

--- 


## **Emparejamiento con reservados.**

El funcionamiento de los simbolos reservados **```$```** , **```^```** y **```.```** es identico a como funcionan en la herramienta **```grep```**

In [None]:
import re
## Podemos notar como no hay un retorno. (No hay coincidencia)
result = re.search(r"aza", "maze")
print(result) # None sin coincidencia


print(re.search(r"^x", "xenon"))  # Nos devuelve el objeto re.Match

result2 = re.search(r"^x","xenon") 
print(result2[0]) #Nos la busqueda el valor del par√°metro match en re.Match


None
<re.Match object; span=(0, 1), match='x'>
x


In [None]:
import re
print(re.search(r"p.ng", "penguin")) # En el match retorna el patron de busqueda con el reservado "." sustituido por la letra donde correspondiente a la palabra donde encont√≥ el patron. 

# print(re.search(r"p.ng", "penguin")) 
# returns => <re.Match object; span=(0, 4), match='peng'>

# print(re.search(r"p.ng", "punged"))
# returns => <re.Match object; span=(0, 4), match='pung'>

# print(re.search(r"p.ng", "pang"))
# returns => <re.Match object; span=(0, 4), match='pang'>
# Ojo no est√° retornando la palabra sino el patron con la letra sustituida. En este caso hay coincidencia. 


<re.Match object; span=(0, 4), match='peng'>


In [None]:
# Ejemplos adicionales.
import re
print(re.search(r"p.ng", "clapping"))
print(re.search(r"p.ng", "sponge"))

<re.Match object; span=(4, 8), match='ping'>
<re.Match object; span=(1, 5), match='pong'>


## Utilizaci√≥n del caracter reservado . multiples veces. 
```python
import re
def check_aei (text):
  result = re.search(r"a.e.i", text)
  return result != None

print(check_aei("academia")) # True
print(check_aei("aerial")) # False
print(check_aei("paramedic")) # True
```

Notemos que buscamos si existen un patron "a.e.i" es decir "a(una letra)e(otra letra)i
Si se obtiene un patron vamos a obtener un objeto del tipo re.Match , que es diferente a None. Por lo tanto la funci√≥n en este caso retornar√° **True**

Podemos intuir que estos son los patrones: 
1. ademi
2. None
3. amedi

En efecto: 

```python
# Modificando el m√©todo anterior tenemos: 
def check_aei (text):
  result = re.search(r"a.e.i", text)
  return (result != None, result)

print(check_aei("academia")) # True
print(check_aei("aerial")) # False
print(check_aei("paramedic")) # True
```

Nos retorna en efecto los patrones que habiamos previsto. 

```bash
(True, <re.Match object; span=(2, 7), match='ademi'>)
(False, None)
(True, <re.Match object; span=(3, 8), match='amedi'>)
```

In [None]:
import re
print(re.search(r"p.ng", "Pangaea", re.IGNORECASE))

## re.IGNORECASE Permite que no haya ninguna distinci√≥n entre mayusculas y minusculas.  