# REGEX

## re.search / re.findall

In [1]:
import re

In [3]:
texto = '''Hola Mundo.
Me gusta Python!!!!!
Mi primer numero de la suerte es 987-654-321
Mi segundo numero de la suerte es 876-543-210
Mi tercer numero de la suerte es 765-432-100
Mi cuarto numero de la suerte es 123-456-123-123'''

In [4]:
# buscar el primer emparejamiento
print(re.search(r'\d', texto))

<re.Match object; span=(66, 67), match='9'>


In [6]:
# buscar todos los emparejamientos
print(re.findall(r'\d', texto))

['9', '8', '7', '6', '5', '4', '3', '2', '1', '8', '7', '6', '5', '4', '3', '2', '1', '0', '7', '6', '5', '4', '3', '2', '1', '0', '0', '1', '2', '3', '4', '5', '6', '1', '2', '3', '1', '2', '3']


In [None]:
# para buscar rápidamente utilizando cualquier expresión regular a través de los metacaracteres 
# podemos utilizar la siguiente pagina web: 
# https://regex101.com/

In [9]:
# En Python la cadena de texto escrita se interpreta como una cadena continua,
# por lo tanto las funciones REGEX no va a detectar el inicio y fin de cada linea escrita.
# para eso debemos realizar la siguiente sintaxis
# El el siguiente código se ejecuta búsqueda de un string que termine por 'Mundo.'. 
    # esta búsqueda parece tener sentido, pues una linea termina de este modo. 
print(re.search(r'Mundo.$', texto))

None


In [10]:
# sin embargo para indicar a python que trate cada linea como una cadena de texto con inicio y fin
    # y de esta manera realizar la búsqueda que queremos debemo añadir "flags=re.M"
    # flags=re.M == Multilinea, tambien se puede ver nombrado como "gm"(global multiline)

print(re.search(r'Mundo.$', texto, flags=re.M))


<re.Match object; span=(5, 11), match='Mundo.'>


In [None]:
Metacaracteres:
\d      - Digitos (0-9)
\D      - No digitos (0-9)
\w      - Caracter de palabra (a-z, A-Z, 0-9, _)
\W      - No caracter de palabra
\s      - Espacio en blanco (espacio, tab, nueva linea)
\S      - No espacio en blanco (espacio, tab, nueva linea)
.       - Cualquier caracter excepto nueva linea (codicioso - greedy)
\       - Cancela caracteres especiales

^       - Inicio de una cadena de caracteres (string)
$       - Fin de una cadena de caracteres


------------------
English
-------------------

\d      - Digit (0-9)
\D      - No digits (0-9)
\w      - Word Character (a-z, A-Z, 0-9, _)
\W      - Not a Word Character
\s      - Whitespace (space, tab, new line)
\S      - No Whitespace (space, tab, new line)
.       - Any character except new line (greedy)
\       - Ignores any special character

^       - Beginning of a string
$       - End of a string

## REX lazy / greedy / quantifiers

In [None]:



Cuantificadores:
*       - 0 o más (codicioso - greedy)
+       - 1 o más (codicioso - greedy)
?       - 0 or 1 (perezoso - lazy)
{3}     - Numero exacto
{n,}    - Numero n+
{3,4}   - Rango de números (Minimo, Maximo)

( )     - Grupos
[]      - Encuentra caracteres en corchetes
[^ ]    - Encuentra caracteres que no están dentro de corchetes
|       - Condicional O

\b      - Limite de palabra
\B      - No limite de palabra

\1      - Referencias

------------------
English
-------------------

Quantifiers:
*       - 0 or more (greedy)
+       - 1 or more (greedy)
?       - 0 or 1 (lazy)
{3}     - Exact number
{n,}    - More than n characters
{3,4}   - Range of numbers (Min, Max)

( )     - Group
[]      - Matches characters in brackets
[^ ]    - Matches characters not in brackets
|       - Or

\b      - Word boundary
\B      - No word boundary

\1      - Reference

## Flags

In [None]:
# existen diferentes tipos de flags. 
# ya hemos visto "flags=re.M" == Multilinea

In [12]:
# Pero existen otros como re.I (ignore Case), que ignora las mayusculas y minusculas
print(re.search(r'^hola', texto, flags=re.I ))

<re.Match object; span=(0, 4), match='Hola'>


### Exercises

In [14]:
# 1 Matches de puntos (.)
print(len(re.findall(r'[^\w\s]', texto)))

15


In [16]:
# 2 Validar una fecha
# aplicamos una regex que encuentre una fecha, la cual tenga el siguiente formato:
# dos digitos - dos digitos - cuatro digitos
texto = '''
13-04-2021
2021-13-04
2021-04-13
'''
print(re.findall(r'\d{2}-\d{2}-\d{4}', texto))

['13-04-2021']


In [20]:
# 3 Validar un nombre de usuario
    # las condiicones son que contenga de 4 a 14 caracteres
    # solo numeros o letras
texto = '''
usuario10
abc
10
'''

print(re.findall(r'[a-z0-9]{4,14}', texto))

['usuario10']
