</center><img src="https://www.teachingenglish.org.uk/sites/teacheng/files/styles/large/public/images/revisiting_text_iStock_000015756375XSmall%20%281%29_3.jpg?itok=YSNa9Dvz" width=600></center>
<h1 align="center">Natural Language Processing</h1>
<h2 align="center"> <font color='gray'>Regular expressions</font></h2>


### Links de utilidad

- Link a [regex101.com](https://regex101.com/)
- [Video](https://www.youtube.com/watch?v=sa-TUpSx1JA) en el cual se basa la clase.

### Por qué usamos expresiones regulares?

- Buscar patrones en textos.
- Extraer información.
- Data parsing (partición de textos).
- Filtrado/Eliminación de información.
- Pre-procesamiento.
- Análisis de sentimientos.

### Cheat sheet
```
.       - Any Character Except New Line
\d      - Digit (0-9)
\D      - Not a Digit (0-9)
\w      - Word Character (a-z, A-Z, 0-9, _)
\W      - Not a Word Character
\s      - Whitespace (space, tab, newline, carriage return) ---> ( , \t, \n, \r)
\S      - Not Whitespace (space, tab, newline, carriage return)

\b      - Word Boundary
\B      - Not a Word Boundary
^       - Beginning of a String
$       - End of a String

[]      - Matches Characters in brackets
[^ ]    - Matches Characters NOT in brackets
|       - Either Or
( )     - Group

Quantifiers:
*       - 0 or More of the preceding regex token
+       - 1 or More of the preceding regex token
?       - 0 or One of the preceding regex token
{3}     - Exact Number
{3,4}   - Range of Numbers (Minimum, Maximum)

```

Link a funciones:
- [re.compile()](https://docs.python.org/3/library/re.html#re.compile): Compile a regular expression pattern into a regular expression object, which can be used for matching using its match(), search() and other methods.
- [re.findall()](https://docs.python.org/3/library/re.html#re.findall): Return all non-overlapping matches of pattern in string, as a list of strings. The string is scanned left-to-right, and matches are returned in the order found. If one or more groups are present in the pattern, return a list of groups; this will be a list of tuples if the pattern has more than one group. Empty matches are included in the result.

### Importamos librerías

In [1]:
import regex as re

### Texto de búsqueda

In [2]:
text_to_search = '''
abcdefghijklmnopqurtuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
1234567890
Ha HaHa
MetaCharacters (Need to be escaped):
. ^ $ * + ? { } [ ] \ | ( )
coreyms.com
321-555-4321
123.555.1234
123*555*1234
800-555-1234
900-555-1234
Mr. Schafer
Mr Smith
Ms Davis
Mrs. Robinson
Mr. T

cat
bat
mat
pat
'''

### Match de minúsculas

In [3]:
# pattern = r"([a-z])" # letras individuales
pattern = r"([a-z]+)" # desde la ocurrencia de una minúscula hasta que aparezca una no minúscula
pattern = re.compile(pattern)

matches = re.findall(pattern, text_to_search)

print(matches)

['abcdefghijklmnopqurtuvwxyz', 'a', 'a', 'a', 'eta', 'haracters', 'eed', 'to', 'be', 'escaped', 'coreyms', 'com', 'r', 'chafer', 'r', 'mith', 's', 'avis', 'rs', 'obinson', 'r', 'cat', 'bat', 'mat', 'pat']


### Match de mayúsculas

In [4]:
# pattern = r"[A-Z]" # letras individuales
pattern = r"([A-Z]+)" # desde la ocurrencia de una mayúscula hasta que aparezca una no mayúscula
pattern = re.compile(pattern)

matches = re.findall(pattern, text_to_search)

print(matches)

['ABCDEFGHIJKLMNOPQRSTUVWXYZ', 'H', 'H', 'H', 'M', 'C', 'N', 'M', 'S', 'M', 'S', 'M', 'D', 'M', 'R', 'M', 'T']


### Word character
Un word character es un caracter desde a-z, A-Z, 0-9, incluyendo la _ (barra baja).

In [5]:
# pattern = r"\w" 
pattern = r"\w+"
pattern = re.compile(pattern)

matches = re.findall(pattern, text_to_search)

print(matches)

['abcdefghijklmnopqurtuvwxyz', 'ABCDEFGHIJKLMNOPQRSTUVWXYZ', '1234567890', 'Ha', 'HaHa', 'MetaCharacters', 'Need', 'to', 'be', 'escaped', 'coreyms', 'com', '321', '555', '4321', '123', '555', '1234', '123', '555', '1234', '800', '555', '1234', '900', '555', '1234', 'Mr', 'Schafer', 'Mr', 'Smith', 'Ms', 'Davis', 'Mrs', 'Robinson', 'Mr', 'T', 'cat', 'bat', 'mat', 'pat']


### Matchear hasta encontrar un patrón

La expresión regular busca línea a línea. Busquemos hasta que aparezca el apellido "Robinson".

[Fuente](https://stackoverflow.com/questions/7124778/how-to-match-anything-up-until-this-sequence-of-characters-in-a-regular-expres)

In [6]:
pattern = r".+?\s(?=Robinson)"
pattern = re.compile(pattern)

matches = re.findall(pattern, text_to_search)

print(matches)

['Mrs. ']


### Matchear todos los caracteres entre dos strings

Matchemos todo entre "Meta" y "escaped".

[Fuente](https://stackoverflow.com/questions/6109882/regex-match-all-characters-between-two-strings)

In [7]:
pattern = r"(?<=Meta)(.*)(?=escaped)"
pattern = re.compile(pattern)

matches = re.findall(pattern, text_to_search)

print(matches)

['Characters (Need to be ']


### Match de números telefónicos
Matchear 3 digitos, cualquier separador, 3 digitos, cualquier separador, 4 digitos

In [8]:
pattern = r"\d\d\d.\d\d\d.\d\d\d\d"
pattern = re.compile(pattern)

matches = re.findall(pattern, text_to_search)

print(matches)

['321-555-4321', '123.555.1234', '123*555*1234', '800-555-1234', '900-555-1234']


### Matchear números telefónicos con - o . solamente

Podemos usar corchetes para hacer coincidir **solo** estos dos separadores en lugar del último ejemplo, que coincidió con **cualquier** separador. Los corchetes se denominan **character sets**.

Tenga en cuenta que estos patrones **solo coinciden con una aparición de - o .**

Si tuviéramos dos o más guiones o puntos, estos no coincidirían.

In [9]:
pattern = r"\d\d\d[.-]\d\d\d[.-]\d\d\d\d"
pattern = re.compile(pattern)

matches = re.findall(pattern, text_to_search)

print(matches)

['321-555-4321', '123.555.1234', '800-555-1234', '900-555-1234']


### Matchear números telefónicos que empiecen con 800 o 900

In [10]:
pattern = r"[89]\d\d[.-]\d\d\d[.-]\d\d\d\d"
pattern = re.compile(pattern)

matches = re.findall(pattern, text_to_search)

print(matches)

['800-555-1234', '900-555-1234']


### Matchear números telefónicos inferiores a 800
Si usamos el guión entre otros caracteres dentro de corchetes, matcheamos **rangos**. Estos pueden ser rangos numéricos o alfabéticos.

In [11]:
pattern = r"[1-7]\d\d[.-]\d\d\d[.-]\d\d\d\d"
pattern = re.compile(pattern)

matches = re.findall(pattern, text_to_search)

print(matches)

['321-555-4321', '123.555.1234']


### Matchear todas las letras
Podemos usar rangos alfabéticos para matchear letras minúsculas y mayúsculas.

In [27]:
pattern = r"[a-zA-Z]+"
pattern = re.compile(pattern)

matches = re.findall(pattern, text_to_search)

print(matches)

['abcdefghij', 'a', 'a', 'a', 'e', 'a', 'ha', 'ac', 'e', 'eed', 'be', 'e', 'ca', 'ed', 'c', 'e', 'c', 'chafe', 'i', 'h', 'a', 'i', 'bi', 'ca', 'ba', 'a', 'a']


### No matchear letras minúsculas

Podemos usar el **signo de intercalación ^** como operador **NOT**.

In [12]:
pattern = r"[^a-z]"
pattern = re.compile(pattern)

matches = re.findall(pattern, text_to_search)

print(matches)

['\n', '\n', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '\n', '1', '2', '3', '4', '5', '6', '7', '8', '9', '0', '\n', 'H', ' ', 'H', 'H', '\n', 'M', 'C', ' ', '(', 'N', ' ', ' ', ' ', ')', ':', '\n', '.', ' ', '^', ' ', '$', ' ', '*', ' ', '+', ' ', '?', ' ', '{', ' ', '}', ' ', '[', ' ', ']', ' ', '\\', ' ', '|', ' ', '(', ' ', ')', '\n', '.', '\n', '3', '2', '1', '-', '5', '5', '5', '-', '4', '3', '2', '1', '\n', '1', '2', '3', '.', '5', '5', '5', '.', '1', '2', '3', '4', '\n', '1', '2', '3', '*', '5', '5', '5', '*', '1', '2', '3', '4', '\n', '8', '0', '0', '-', '5', '5', '5', '-', '1', '2', '3', '4', '\n', '9', '0', '0', '-', '5', '5', '5', '-', '1', '2', '3', '4', '\n', 'M', '.', ' ', 'S', '\n', 'M', ' ', 'S', '\n', 'M', ' ', 'D', '\n', 'M', '.', ' ', 'R', '\n', 'M', '.', ' ', 'T', '\n', '\n', '\n', '\n', '\n', '\n']


### Matchear pat, mat, cat pero no bat

In [13]:
pattern = r"[^b]at"
pattern = re.compile(pattern)

matches = re.findall(pattern, text_to_search)

print(matches)

['cat', 'mat', 'pat']


### Matchear los números de teléfono usando cuantificadores
Podemos usar cuantificadores para especificar rangos de ocurrencias de caracteres.

In [14]:
pattern = r"\d{3}[.-]\d{3}[.-]\d{4}"
pattern = re.compile(pattern)

matches = re.findall(pattern, text_to_search)

print(matches)

['321-555-4321', '123.555.1234', '800-555-1234', '900-555-1234']


### Matchear con todos los nombres masculinos

Si miramos los nombres, vemos que tenemos "Mr" y "Mr." así que tenemos que usar un cuantificador "?". Esto coincidirá con 0 o una aparición del punto.

Luego, después del espacio, necesitamos hacer coincidir una letra mayúscula seguida de letras minúsculas.

Si usamos el cuantificador "+" (1 o más) "Mr. T" quedaría fuera.

Si usamos el carácter "\*" (0 o más) se incluirá.

In [15]:
pattern = r"Mr\.?\s[A-Z]\w*"
# pattern = r"Mr\.?\s[A-Z]\w+" ### uncoment if you want to leave Mr. T out
pattern = re.compile(pattern)

matches = re.findall(pattern, text_to_search)

print(matches)

['Mr. Schafer', 'Mr Smith', 'Mr. T']


### Crear un grupo usando paréntesis curvos

Matchear Mr, Ms, or Mrs usando grupos.

In [16]:
pattern = r"(M(r|s|rs)\.?\s[A-Z]\w*)"
pattern = re.compile(pattern)

matches = re.findall(pattern, text_to_search)
matches = [m[0] for m in matches]
print(matches)

['Mr. Schafer', 'Mr Smith', 'Ms Davis', 'Mrs. Robinson', 'Mr. T']


### Matchear emails que terminen en .com

In [17]:
emails = '''
CoreyMSchafer@gmail.com
corey.schafer@university.edu
corey-321-schafer@my-work.net
'''

pattern = r"[a-zA-Z.]+@[a-zA-Z]+\.com"
pattern = re.compile(pattern)

matches = re.findall(pattern, emails)
print(matches)

['CoreyMSchafer@gmail.com']


### Matchear emails que terminen en .com o .edu

In [18]:
emails = '''
CoreyMSchafer@gmail.com
corey.schafer@university.edu
corey-321-schafer@my-work.net
'''

pattern = r"([a-zA-Z.]+@[a-zA-Z]+\.(com|edu))"
pattern = re.compile(pattern)

### Dirección de email entera
matches = re.findall(pattern, emails)
matches = [m[0] for m in matches]
print(matches)

### Solo top-level domain
matches = re.findall(pattern, emails)
matches = [m[1] for m in matches]
print(matches)

['CoreyMSchafer@gmail.com', 'corey.schafer@university.edu']
['com', 'edu']


### Incluir emails con números y barras en el nombre o en el dominio

In [19]:
import re

emails = '''
CoreyMSchafer@gmail.com
corey.schafer@university.edu
corey-321-schafer@my-work.net
'''

pattern = re.compile(r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-z]+')

matches = pattern.finditer(emails)

for match in matches:
    print(match)

<re.Match object; span=(1, 24), match='CoreyMSchafer@gmail.com'>
<re.Match object; span=(25, 53), match='corey.schafer@university.edu'>
<re.Match object; span=(54, 83), match='corey-321-schafer@my-work.net'>


### Leer todos los emails del archivo de emails

In [21]:
import json

with open('data/data.txt', 'r') as file:
    data = file.read()

# print(data)

In [22]:
pattern = re.compile(r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+')

matches = pattern.finditer(data)
i=0
for match in matches:
    print(match)
    i+=1
    if i==5:
        break
    

<re.Match object; span=(60, 85), match='davemartin@bogusemail.com'>
<re.Match object; span=(147, 175), match='charlesharris@bogusemail.com'>
<re.Match object; span=(235, 263), match='laurawilliams@bogusemail.com'>
<re.Match object; span=(325, 354), match='coreyjefferson@bogusemail.com'>
<re.Match object; span=(425, 453), match='jenniferwhite@bogusemail.com'>


### Matchear con el nombre de dominio de la URL

Breakdown:
- La "s" en "https" es opcional, por lo que necesitamos un "?".
- "www." es opcional, pero es un grupo, por lo que debemos capturarlo con corchetes. Es un grupo 0 o uno, por lo que también necesitamos un "?" después del grupo.
- Entonces necesitamos hacer coincidir cualquier carácter de palabra. Uno o más, por lo que necesitamos un "+".
- Finalmente, necesitamos lo mismo para el nombre de dominio superior.

In [23]:
import re

urls = '''
https://www.google.com
http://coreyms.com
https://youtube.com
https://www.nasa.gov
'''

pattern = re.compile(r'https?://(www\.)?(\w+)(\.\w+)')

subbed_urls = pattern.sub(r'\2\3', urls)

print(subbed_urls)


google.com
coreyms.com
youtube.com
nasa.gov

