## Expresiones Regulares

### **Método 1: Expresiones regulares**

RegEx para los amigos. Son un mini lenguaje de programación diseñado para realizar búsquedas en strings.

Las funciones principales de la librería re son:
- re.findall(pattern, string) para encontrar todos los resultados de una búsqueda
- re.search(pattern, string) para encontrar el primer resultado que coincida
- re.sub(pattern, replace, string) para substituir un texto por otro

#### Recursos útiles

- [Testeo de regex online](https://regex101.com/)
- [CheatSheet](https://www.dataquest.io/wp-content/uploads/2019/03/python-regular-expressions-cheat-sheet.pdf)



<h2><center>Sintaxis para construir regex</center></h2>


<h3><center>Grupos de captura</center></h3>


|     |                       |
|-----|-----------------------|
| ()  | grupo de captura      |
|(?:) | grupo de no captura   |

<h3><center>Tipos de datos</center></h3>


|     |                      |          |                         |
|----|-----------------------|----------|-------------------------|
| \w | caracter alfanumérico | .        | cualquier cosa menos \n |
| \d | dígito                | \|       | operador "or"           |
| \s | espacio en blanco     | [m-z3-9] | rangos                  |

<h3><center>Operadores</center></h3>

|         |                      |
|---------|----------------------|
| \|      | operador "or"        |
| []      | conjunto             |
|[m-z3-9] | rangos               |


<h3><center>Cuantificadores</center></h3>

|      |                                              |
|------|----------------------------------------------|
| +    | Uno o más del elemento anterior              |
| *    | Cero o más del elemento anterior             |
| {4,} | Cuatro o más del elemento anterior           |
| ?    | Cambia el operador anterior de lazy a greedy |

#### ¿Cómo se usa eso? Veamos ejemplos

In [None]:
# Libreria para expresiones regulares en Python
import re

# a- extraer números de una oración.

texto = "Mi nombre es Mathias y mi teléfono es 1564232324"
regla_de_busqueda = "15\d+"
print('')
print(texto)
print(re.findall(regla_de_busqueda,texto))

# En realidad los telefonos no son cualquier seguidilla de numeros
# suelen tener entre 6 y 8 numeros despues del 15
texto = "Mi nombre es María y mi teléfono es 1564232324"
regla_de_busqueda = "15\d{6,8}"
print('')
print(texto)
print(re.findall(regla_de_busqueda,texto))

# En realidad los telefonos no arrancan siempre con 15
# capaz empiezan con 11 si son de buenos aires por ejemplo
texto = "Mi nombre es Carlos y mi teléfono es 1164232324"
regla_de_busqueda = "(?:15|11)\d{6,8}"
print('')
print(texto)
print(re.findall(regla_de_busqueda,texto))

# En realidad los telefonos pueden tener un guión o espacio a parte de números
texto = "Mi nombre es asfasfeaf33 y mi teléfono es 11 6423-2324"
regla_de_busqueda = "(?:15|11)[0-9\s-]{6,10}"
print('')
print(texto)
print(re.findall(regla_de_busqueda,texto))

# b- Como extraer el mes de un texto
texto = "REPORTE DE PERFOMANCE - MES DE JUNIO"
regla_de_busqueda = "(MES DE (?:JULIO|AGOSTO|JUNIO))"
print('')
print(texto)
print(re.findall(regla_de_busqueda,texto))

In [None]:
# ¿Cómo hago que pare de buscar el operador * ?
text = "me llamo pedro. me gusta el rock."
regla_de_busqueda_no_greedy = "(.*?)\."
regla_de_busqueda_greedy = "(.*)\."
print(re.findall(regla_de_busqueda_no_greedy,text))
print(re.findall(regla_de_busqueda_greedy,text))

In [None]:
# python utiliza la libreria llamada re para todo lo relacionado a regular expressions
import re

comentario_de_mercadolibre = 'hola soy @mariadominguez, me interesa el producto, te dejo mi celu 1565525233, saludos'

def encontrar_telefonos(texto):
    regla_de_busqueda = r'(15[0-9]{8})'
    return re.findall(regla_de_busqueda, texto)

def encontrar_usuarios(texto):
    regla_de_busqueda = r'@([a-zA-Z]+)'
    return re.findall(regla_de_busqueda, texto)

print(encontrar_telefonos(comentario_de_mercadolibre))
print(encontrar_usuarios(comentario_de_mercadolibre))

#### Ejercicio

Usa regex para hacer una función que busque todos los emails en un texto

In [None]:
# Resolución 

def encontrar_emails(texto):
    regla_de_busqueda = r"([a-z0-9_]+@[a-z]+\.[a-z]+)"
    return re.findall(regla_de_busqueda,texto)

texto = "Hola te paso mi mail python@hotmail.com, saludos. Si no te funciona mandame a este otro, pedro_2010@yahoo.com"
encontrar_emails(texto)