## EXPRESIONES REGULARES

Expresiones que sirven para la busqueda de patrones en un texto por medio del uso de "cadenas especificas".

### **Log de ejemplo 1.** procedimiento manual. 

In [None]:
log = "July 31 07:51:48 mycomputer bad_process[12345]: ERROR Performing package upgrade"

# Tenemos un mensaje que sale en un log. Nuestro interes es extraer partes de el mensaje. 

index = log.index("[")

"""De manera manual extraemos la posición índice del caracter "["
Al conocer con exactitud donde está el número que queremos extraer podemos:
recorrer la cadena desde esta posición hasta 5 indices más. Logrando extraer el número. 
"""
print(log[index+1:index+6])


12345


## Utilizando el módulo de expresiones regulares

In [15]:
import re

log = "July 31 07:51:48 mycomputer bad_process[12345]: ERROR Performing package upgrade"

# Podemos notar como usamos un patron de busqueda. 
regex = r"\[(\d+)\]"

# Utilizamos la función de busqueda, le pasamos el argumento y la cadena. 

result = re.search(regex, log)

# result es un tipo de objeto re.Match
"""
<re.Match object; span=(39, 46), match='[12345]'>

la función re.search() devuelve un objeto Match porque el registro de cadenas contiene una coincidencia con la expresión regular. El objeto Match tiene un método group() que devuelve los grupos capturados de la coincidencia. En este caso, el único grupo capturado es el número, que es devuelto por la expresión result[1].
"""

print(result[1])

12345


## Desglose expresión regular

> r"\[(\d+)\]"

r"" : Hace referencia a un "raw string" , permite que los caracteres (\n, \t, \\, etc.) no se interpretan, sino que se pasan "crudos" directamente a la expresión regular.

🔹 Qué pasa con un string normal en Python

En Python, al escribir un string sin la r, Python primero interpreta los caracteres de escape antes de pasarlos a la expresión regular.

s = "\n"    

Python interpreta esto como un salto de línea
print(s)    :  Salto de línea, no ves "\n"


Si intentas hacer una regex con:

regex = "\d+"


➡️ Python piensa: \d no es un escape válido dentro de un string normal, así que lo trata como d.
Es decir, la regex resultante es "d+", no “\d+”.

🔹 Qué pasa con un raw string

Cuando agregas la r delante, Python no interpreta los escapes, sino que los deja tal cual están escritos.

s = r"\n"
print(s)    # Se imprime \n (dos caracteres: \ y n)


Si haces:

regex = r"\d+"


➡️ Python envía al motor de regex exactamente el texto \d+.
El motor de regex sabe que \d significa “dígito”, así que funciona como esperas.

---

➡️ **```2. \[ \]```**

Los corchetes son caracteres especiales en regex, pero aquí se escapan con \.

\[ significa un corchete abierto literal [

\] significa un corchete cerrado literal ]

Por lo tanto, la expresión busca texto que esté entre corchetes.

---

➡️ **```3. (\d+)```**

Los paréntesis () forman un grupo de captura. Lo que coincida dentro de ellos se podrá recuperar aparte.

\d significa un dígito numérico (equivalente a [0-9]).

+ significa uno o más dígitos.

En conjunto, (\d+) captura un número entero de cualquier longitud.

## **GREP** 

Herramienta clásica de Linux/Unix que sirve para buscar texto en archivos utilizando la linea de comandos.

Podemos utilizar: 

```bash
grep thon usr\share\dictwords
```

Utilizamos grep para en que palabras del archivo "usr\share\dictwords" aparece la cadena "thon"

Retornará una lista de palabras que contienen esta cadena, y  con la cadena en cuestión  resaltada.

Se puede utilizar el parámetro **-i** para que ignore distinción entre maysuculas y minusculas. 

```bash
grep -i thon usr\share\dictwords
```

---

### Busqueda por un patrón de "."

Permite que conincida con cualquier cosa por lo tanto: 

```bash
grep l.rts usr\share\dictwords
```

Nos puede traer un número n de coincidencias (Palabras) donde el punto puede ser cualquier caracter: 

Ejm: 
```alerts``` => Vinede de : al.rts 
```blurts``` => Vinede de : bl.rts
```flirts``` => Vinede de : fl.rts

El punto en el patro fue sustituido por letras diferente. Nos permitió encontrar diferentes entradas sin conocer ninguna de estas palabras. Podemos usar estos patrones para buscar. 

---

## **El circunflejo [^] y el símbolo del dólar [$] son caracteres de anclaje.**

El circunflejo y el símbolo del dólar coinciden específicamente con el inicio y el final de una línea o cadena, pero no necesariamente con las palabras en sí.

### Buscar todas las cadenas que comienzan por un patron 

Podemos utilizar: 

```bash
grep ^fruit usr\share\dictwords
```

traera todas las palabras que comienzen por este patron.  Ejm:

```fruit```ing |  ```fruit```ion  |  ```fruit```less 

---

### Buscar todas las palabras que terminan por un patron 

Podemos utilizar: 

```bash
grep cat$ usr\share\dictwords
```

traera todas las palabras que comienzen por este patron.  Ejm:

copy```cat``` |  du```cat```  |  lot```cat```

---

---

## **Emparejamiento simple en python**


In [18]:
import re

# Recordemos: Nos retorna un objeto re.Match que nos confirma la coincidencia, en caso contrario retorna None. 

result = re.search(r"aza", "plaza")
print(result)

<re.Match object; span=(2, 5), match='aza'>


In [None]:
import re

# Podemos notar que además el objeto re.Match retorna los indices poscionales donde está la primera coincidencia.  
result = re.search(r"aza", "bazaar del azar")
print(result)

# <re.Match object; span=(1, 4), match='aza'> indices del 1 al 4 sin cerrado al principio abierto al final es decir:  (1,2,3) 

<re.Match object; span=(1, 4), match='aza'>


#### Notemos que devolverá el patron de busqueda NO LA PALABRA QUE LO CONTIENE

--- 


## **Emparejamiento con reservados.**

El funcionamiento de los simbolos reservados **```$```** , **```^```** y **```.```** es identico a como funcionan en la herramienta **```grep```**

In [None]:
import re
## Podemos notar como no hay un retorno. (No hay coincidencia)
result = re.search(r"aza", "maze")
print(result) # None sin coincidencia


print(re.search(r"^x", "xenon"))  # Nos devuelve el objeto re.Match

result2 = re.search(r"^x","xenon") 
print(result2[0]) #Nos la busqueda el valor del parámetro match en re.Match


None
<re.Match object; span=(0, 1), match='x'>
x


In [None]:
import re
print(re.search(r"p.ng", "penguin")) # En el match retorna el patron de busqueda con el reservado "." sustituido por la letra donde correspondiente a la palabra donde encontó el patron. 

# print(re.search(r"p.ng", "penguin")) 
# returns => <re.Match object; span=(0, 4), match='peng'>

# print(re.search(r"p.ng", "punged"))
# returns => <re.Match object; span=(0, 4), match='pung'>

# print(re.search(r"p.ng", "pang"))
# returns => <re.Match object; span=(0, 4), match='pang'>
# Ojo no está retornando la palabra sino el patron con la letra sustituida. En este caso hay coincidencia. 


<re.Match object; span=(0, 4), match='peng'>


In [None]:
# Ejemplos adicionales.
import re
print(re.search(r"p.ng", "clapping"))
print(re.search(r"p.ng", "sponge"))

<re.Match object; span=(4, 8), match='ping'>
<re.Match object; span=(1, 5), match='pong'>


## Utilización del caracter reservado . multiples veces. 
```python
import re
def check_aei (text):
  result = re.search(r"a.e.i", text)
  return result != None

print(check_aei("academia")) # True
print(check_aei("aerial")) # False
print(check_aei("paramedic")) # True
```

Notemos que buscamos si existen un patron "a.e.i" es decir "a(una letra)e(otra letra)i
Si se obtiene un patron vamos a obtener un objeto del tipo re.Match , que es diferente a None. Por lo tanto la función en este caso retornará **True**

Podemos intuir que estos son los patrones: 
1. ademi
2. None
3. amedi

En efecto: 

```python
# Modificando el método anterior tenemos: 
def check_aei (text):
  result = re.search(r"a.e.i", text)
  return (result != None, result)

print(check_aei("academia")) # True
print(check_aei("aerial")) # False
print(check_aei("paramedic")) # True
```

Nos retorna en efecto los patrones que habiamos previsto. 

```bash
(True, <re.Match object; span=(2, 7), match='ademi'>)
(False, None)
(True, <re.Match object; span=(3, 8), match='amedi'>)
```

In [None]:
import re
print(re.search(r"p.ng", "Pangaea", re.IGNORECASE))

## re.IGNORECASE Permite que no haya ninguna distinción entre mayusculas y minusculas.  