## __Text mining y Procesamiento de Lenguaje Natural (NLP)__

__Profesor__: Anthony D. Cho

__Asunto__: Expresión regular

***

## Operadores simples

<center>

| **Operador** | **Descripción** | **Ejemplo** |
|------------|----------------------------|-------------|
| ^          | Empieza con                | "^hola"     |
| $          | Termina con                | "ido$"      |
| [ ]         | Un conjunto de caracteres | "[a-m]"     |
| .          | Cualquier carater (Excepto caracter de nueva linea) | "p..o" |
| ?          | Cero o una ocurrencia      | "pe.?o"     |
| *          | Cero o más ocurrencias     | "pe.*o"     |
| +          | Una o más ocurrencias      | "pe.+o"     |
| { }         | Cantidad expecífica de ocurrencias | "pe.{3}o" |
| \|           | Uno o otro                | "pepe\|perro" |

</center>

## Operadores especiales

<center>

| **Operador** | **Descripción** | **Ejemplo** |
|------------|----------------------------|-------------|
| \A          | Retorna un match si el patron se encuentra al inicio de la cadena de caracteres                | "\Ahola"     |
| \b          | Retorna los matches donde el patrón está al inicio o al final de una palabra  | r"\bido" o r"ido\b"      |
| \B         | Retorna los matches donde el patrón esté presente pero que no esté al inicio o al final de una palabra | r"\Bido" o r"ido\B"     |
| \d          | Retorna la lista de digitos que aparecen en una cadena de caracteres | "\d" |
| \D          | Retorna los caracteres que no sean digitos en una cadena de caracteres       | "\D"     |
| \s          | Retorna una lista de espacios vacios en una cadena de caracteres  | "\s"     |
| \S          | Retorna una lista de caracteres sin espacios vacios | "\S"     |
| \w         | Retona una lista de caracteres [a-Z], digitos [0-9] y underscore _ en una cadena de caracteres | "\w" |
| \W          | Retorna el complemento de \w.                | "\W" |
| \Z          | Retorna un match si el patron está al final de la cadena de caracteres | "Hola\Z"

</center>

## Conjuntos

<center>

| **Conjunto** | **Descripción** |
|------------|----------------------------|
| [pqt]      | Retorna una lista de match de cada caracter indicado (p, q, t) |
| [a-n]      | Retorna una lista de match de los caracteres entre a y n (minuscula) |
| [^pqt]     | Retorna una lista de match de cualquier caracter excepto p, q, t |
| [0123]     | Retorna una lista de match de los digitos indicados (0, 1, 2, 3) |
| [0-9]      | Retorna una lista de match de los digitos entre 0 y 9 |
| [0-5][0-9] | Retorna una lista de match números de dos digitos entre 00 y 59 |
| [a-zA-Z]   | Retorna una lista de match de caracter entre a y z (minusculas y mayusculas) |
| [+]        | En conjuntos +, *, ., \|, (), $, {} no tiene significado especial, por tanto, el conjunto [+] retorna la lista de match que coincida con el simbolo '+' | 

</center>

## Funciones

<center>

| **Función** | **Descripción** |
|------------|----------------------------|
| findall    | Retorna una lista que contiene todos los matches con un patron definido |
| search     | Retorna un __objeto Match__ si existe un match, si hay varios retorna el primero que encuentre.     |
| split      | Retorna una lista de candenas de caracteres donde los cortes coincida con el patron definido |
| sub        | Reemplaza uno o varios maches con la cadena de caracteres |

</center>

#### Algunas fuentes de documentaciones y ejemplos

* [Python RegEx](https://www.w3schools.com/python/python_regex.asp)
* [Regular expression operations](https://docs.python.org/3/library/re.html)
* [Regular Expressions: Regexes in Python (Part 1)](https://realpython.com/regex-python/)
* [Regular Expressions: Regexes in Python (Part 2)](https://realpython.com/regex-python-part-2/)

#### Libreria

In [None]:
import re

## Verificar si la cadena de caracteres empieza con "No" y termina en "mí" 

In [None]:
## Inserción de la candena de caracteres o frase
cadena = 'No me importa lo que la sociedad diga de mí'

## Encontrar un match si empieza con "No" y termina en "mí".
indicator = re.search(pattern="^No.*mí$", 
                      string=cadena)

## Imprimir contenido del indicador
print(indicator)

## Un reporte simple
if indicator:
    print('Si, hay un match!')
else:
    print('No hay match')

In [None]:
## Pedir e imprimir la terna que representa la posicion en que inicia y termina la cadena de caracteres
print(indicator.span())

In [None]:
## Pedir e imprimir la cadena de caracteres que fue pasada a la funcion
print(indicator.string)

In [None]:
## Pedir e imprimir la parte de la cadena de caracteres que hizo el match con el patron
print(indicator.group())

## Encontrar una lista de caracteres que hace match entre la cadena de caracteres y las letras entre a y k

In [None]:
## Inserción de la candena de caracteres o frase
cadena = 'No me importa lo que la sociedad diga de mí'

## Buscar todos los caracteres que coincida con el patron indicado
lista = re.findall(pattern="[a-k]", 
                   string=cadena)
print(lista)

## Encontrar las palabras que terminan en "a"

In [None]:
## Inserción de la candena de caracteres o frase
cadena = 'No me importa lo que la sociedad diga de mí'

## Buscar todos los caracteres que coincida con el patron indicado
lista = re.findall(pattern=r"[^\s]*a\b", 
                   string=cadena)
print(lista)

## Extrar los términos numericos en una cadena de caraceres

In [None]:
## Inserción de la candena de caracteres o frase
cadena = 'No me {importa} lo que la [sociedad] diga de mí en 2015 a las 16:00'

## Separamos las palabras con un solo espaciado vacio
lista = re.findall(pattern="\d", 
                   string=cadena)
print(lista)

## Separar la cadena de caracteres mediante un patron

In [None]:
## Inserción de la candena de caracteres o frase
cadena = 'No me {importa} lo que la [sociedad] diga de mí en 2015 a las 16:00'

## Separamos las palabras con un solo espaciado vacio
lista = re.split(pattern="\s", 
                 string=cadena, 
                 maxsplit=0)
print(lista)

## Reemplazar algunos caracteres en una cadena de caracteres

In [None]:
## Inserción de la candena de caracteres o frase
cadena = 'No me {importa} lo que la [sociedad] diga de mí en 2015 a las 16:00'

## Separamos las palabras con un solo espaciado vacio
lista = re.sub(pattern="[\[\]\{\}]", 
               repl='',
               string=cadena, 
               count=0)
print(lista)