## Expresiones Regulares

### Una expresion regular o regex, es un patron que coincidi con un texto. En otras palabras, nos permite definir un string abstracto.

### Algunos usos de regex son:
    - Validar datos de entrada.
    - Analisis de strings
    - Scrapping, encontrar coincidencias en un texto
    - Reemplazar textos

### El modulo de Python para usar regex es el 're'. La funcion principal es 're.search()', que retorna un objeto match. Con informacion que se solicita en el patron.

### La funcion 're.search' hace coincidir un patron, no importa la posicion en el string, este retorna 'None' si el patron no se encuentra

### Los caracteres especiales usados son:
    - ^: Busca en el inicio del string.
    - $: Busca en el fin del string.
    - \b: Busca en el inicio o final en una palabra.
    - \S: Busca cualquier caracter que no sea un espacio en blanco, incluyendo caracteres como: * o $.

In [1]:
# Ejemplo
import re
re.search(r'LOG$', 'SOME LOG')

<re.Match object; span=(5, 8), match='LOG'>

In [2]:
# Hacer coincidir solo el inicio  del string
re.search(r'^LOG', 'LOGS')


<re.Match object; span=(0, 3), match='LOG'>

In [3]:
# No funciona si lo hacemos de esta manera.
re.search(r'^LOG', 'SOME LOGS')

In [4]:
# Hacer coincidir solo el final del string.
re.search(r'LOG$', 'SOME LOG')

<re.Match object; span=(5, 8), match='LOG'>

In [5]:
#No funciona si lo hacemos de esta manera
re.search(r'LOG$', 'SOME LOGS')

In [6]:
# Hacer coincidir la palabra 'thing' (sin excluir 'things'), pero no 'something' o 'anything'
STRING = 'something in the things she shows me'
match = re.search(r'thing', STRING)
STRING[:match.start()], STRING[match.start():match.end()], STRING[:match.end():]


('some', 'thing', 'something')

In [7]:
# Usando \b al inicio del patron
match = re.search(r'\bthing', STRING)
STRING[:match.start()], STRING[match.start():match.end()], STRING[match.end():]

('something in the ', 'thing', 's she shows me')

In [8]:
# Hacer coincidir solo los numeros y guiones. (Ejemplo: telefonos)
re.search(r'[0123456789-]+', 'the phone number is 1234-567-890').group()

'1234-567-890'

### El patron 'r[01234567890-]+' esta compuesto de 2 partes. El primero este entre los corchetes, y buscan cualquier caracter entre 0 y 9 (cualquier numero) y el '-'. El signo '+' significa que los caracteres pueden encontrarse 1 o mas veces. Este se llama **cuantificador** en regex. Esto hace coincidir cualquier combinacion de numeros y guiones, sin importar que tan largo sea.

In [9]:
# Hacer coincidir una direccion de email
re.search(r'\S+@\S+', 'my email is email.123@test.com').group()

'email.123@test.com'

### Nuevamente usamos en signo '+' para buscar cualquier caracter sea necesario antes y despues del '@'. En este caso, el caracter \S busca cualquier caracter que no sea un espacio en blanco.

### La funcion 'group()' retorna una o mas coincidencias que se encuentran en un string.

In [10]:
# data = 'the phones number: 123-456-789, 234-567-890, 098-765-432 and 987-654-321'
data = 'phone number: 123-456-789'
matches = re.search(r'[0123456789-]+', data)
[int(match) for match in matches.group().split('-')]

[123, 456, 789]

# Viendo expresiones regulares a profundidad

### Algunos caracteres usados. Son:
    - \d: Busca cualquier caracter (0 a 9).
    - \s: Busca cualquier caracter que es un espacio en blanco, incluyendo tabulaciones (Es lo contrario a \S)
    - \w: Busca cualquier letra (incluye digitos, pero excluye puntos(.)).
    - .(punto): Busca cualquier caracter.
    - \D: Busca cualquier no digito (no numero)
    - \W: Busca cualquier no letra.
    - \B: Busca una posicion que no este al inicio o final de una palabra. Por ejemplo, r'thing\B'
     seleccionara things y no asi thing

### Buscar un patron de numero telefonico. Usando \d como caracter especial para cualquier digito.

In [11]:
import re

match = re.search(r'the phone number is ([\d-]+)', '37: the phone number is 1234-567-890')
match.group()

'the phone number is 1234-567-890'

In [12]:
match.group(1)

'1234-567-890'

### Compilar un patron y capturar un patron case-insensitive con una opcion yes|no

In [13]:
pattern = re.compile(r'The answer to question (\w+) is (yes|no)', re.IGNORECASE)

In [14]:
pattern.search('Naturally, the answer to question 3b is YES')

<re.Match object; span=(11, 43), match='the answer to question 3b is YES'>

In [15]:
pattern.search('Naturally, the answer to question 3b is YES').groups()

('3b', 'YES')

### Los patrones tambien pueden ser compilados. Este compila un patron de expresion regular en un objeto de expresion regular, que puede ser usado para las coincidencias usando **'match()', 'search()'**

### Registrar todas las ocurrencias de ciudades y abreviaciones de estados en el texto. (Se encuentran separados por un caracter, el nombre de la ciudad siempre empieza en letra mayuscula)

### En el siguiente ejercicio se requiere de mas informacion. Esta compuesto de 2 grupos, separados por un caracter. El caracter especial '.(dot)' indica que seleccione todas las coincidencias. En el ejercicio selecciona un punto (.), un espacio en blanco y una coma(,). El segundo grupo es una seleccion sencilla de opciones. en este caso la abreviatura de los estados de EEUU.

### El primer grupo empieza con letras mauyusculas ([A-Z]) y acepta cualquier combinacion de letras y espacios en blanco ([\w\s]+?), pero no acepta signos de puntuacion. Este patron busca coincidencias que estan compuestas por una o mas palabras. El '+?' hace que la coincidencia de letras sea 'non-greedy', haciendo coincidir como pocos caracteres sea posible. Esto evita algunos problemas, como cuando no existe signos de puntuacion.  

In [16]:
PATTERN = re.compile(r'([A-Z][\w\s]+?).(TX|OR|OH|MI)')

In [17]:
text = 'the jackalopes are the team of Odessa,TX while the knights are native of Corvallis OR and the mud hens come from Toledo.OH; the whitecaps have their base in Grand Rapids,MI'
list(PATTERN.finditer(text))

[<re.Match object; span=(31, 40), match='Odessa,TX'>,
 <re.Match object; span=(73, 85), match='Corvallis OR'>,
 <re.Match object; span=(113, 122), match='Toledo.OH'>,
 <re.Match object; span=(157, 172), match='Grand Rapids,MI'>]

### Note que este patron empieza con cualquier letra mayuscula y sigue buscando hasta encontrar un estado, a menos que este separado por un signo de puntuacion.

In [40]:
re.search(r'([A-Z][\w\s]+?).(TX|OR|OH|MI)', 'This is a test, Escanaba MI')

<re.Match object; span=(16, 27), match='Escanaba MI'>

### Para definir 'groups', se define poniendo en parentesis, Los 'groups' pueden seleccionarse individualmente. Esto lo hace coincidir bueno para buscar grandes cantidades de datos

In [32]:
info = re.search(r'the phone number is ([\d-]+)', '37: the phone number is 1234-567-890')

In [33]:
info.group()

'the phone number is 1234-567-890'

In [34]:
info.group(1)

'1234-567-890'

In [38]:
re.search(r'[0123456789-]+', '37: the phone number is 1234-567-890')

<re.Match object; span=(0, 2), match='37'>

In [39]:
_.group()

'37'

## Recuerde que el **'group 0'(.group() o .group(0))'** es siempre toda la coincidencia. El resto de las coincidencias del grupo son ordenados como son encontrados en el texto.

### A los grupos se les puede asignar nombres. Esto permite que sean mas explicitos, esto se hace con el comando **(?P<groupnam>PATTERN)**. Los grupos pueden referenciarse por el nombre con **.group(groupname)** o usando **.groupdict()**

In [41]:
PATTERN = re.compile(r'(?P<city>[A-Z][\w\s]+?).(?P<state>TX|OR|OH|MN)')
match = PATTERN.search(text)
match.groupdict()

{'city': 'Odessa', 'state': 'TX'}

In [42]:
match.group('city')

'Odessa'

In [43]:
match.group('state')

'TX'

In [44]:
match.group(1), match.group(2)

('Odessa', 'TX')