# Regular Expressions (RegEx)

A regular expression, regex or regexp is a sequence of characters that define a search pattern.

![regex](https://miro.medium.com/max/1200/1*ZVlIZ1ZYC6rASz-dYPzhZQ.jpeg)

**referencias**

- https://docs.python.org/3/howto/regex.html
- https://www.datacamp.com/community/tutorials/python-regular-expression-tutorial
- https://www.dataquest.io/blog/regular-expressions-data-scientists/
- https://www.kaggle.com/rtatman/fraudulent-email-corpus

**puede salvar tu vida**

- https://regex101.com/

### Lo primero es lo primero

Para el caso estándar **importar re** debería ser suficiente. Para el último caso **pip3/pip install regex** debería instalarlo.

In [2]:
import re
import numpy as np
import pandas as pd

#Sintaxis
### Caracteres especiales:
- `.` Matches con cualquier carácter excepto una nueva línea.
- `^` Matches con el inicio de la cadena.
- `$` Matches con el final de la cadena o justo antes de la nueva línea al final de la cadena.
- `*` Matches con 0 o más repeticiones del RE anterior.
- `+` Matches con 1 o más repeticiones del RE anterior.
- `?` Matches con 0 o 1 repeticiones del RE anterior.
- `?<=` Matches con Lookbehind --> https://www.regular-expressions.info/lookaround.html
- NOTA: re.M -> modo multilinea

### Special Sequences:

- **Literals** `a` 
- **Alternation** `a|b`
- **Character sets** `[ab]`, `[^ab]` <- we use the hat between brackets to indicate that we want the opposite
- **Wildcards** `.`
- **Escape special characters** `\` (?,*,+,^,$)
- **Ranges** `[a-d]`, `[1-9]`, `[A-D]`

- **Quantifiers** `{2}`, `{2,}`, `{2,4}`, `?`, `*`, `+`
- **Grouping** `()`
- **Anchors** `^`, `$`
- **Character classes** `\w`, `\d`, `\s`, `\n`, `\W`, `\D`, `\S`

**\w** - Matches any alphanumeric character (digits and alphabets). Equivalent to `[a-zA-Z0-9_]`. By the way, underscore _ is also considered an alphanumeric character. 

**\d** - Matches any digit. Equivalent to `[0-9]` 

**\s** - Matches where a string contains any whitespace character. Equivalent to `[ \t\n\r\f\v]`

**\W** - Matches any non-alphanumeric character. Equivalent to `[^a-zA-Z0-9_]`

**\D** - Matches any non digit. Equivalent to `[^0-9]` 

**\S** - Matches where a string contains any non-whitespace character. Equivalent to `[^ \t\n\r\f\v]`



### Secuencias especiales:

- **Literales** `a`
- **Alternancia** `a|b`
- **Conjuntos de caracteres** `[ab]`, `[^ab]` <- usamos el sombrero entre paréntesis para indicar que queremos lo contrario
- **Comodines** `.`
- **Caracteres especiales de escape** `\` (?,*,+,^,$)
- **Rangos** `[a-d]`, `[1-9]`, `[A-D]`

- **Cuantificadores** `{2}`, `{2,}`, `{2,4}`, `?`, `*`, `+`
- **Agrupación** `()`
- **Anclajes** `^`, `$`
- **Clases de caracteres** `\w`, `\d`, `\s`, `\n`, `\W`, `\D`, `\S`

**\w** - Matches con cualquier carácter alfanumérico (dígitos y letras). Equivalente a `[a-zA-Z0-9_]`. Por cierto, el guión bajo _ también se considera un carácter alfanumérico.

**\d** - Matches con cualquier dígito. Equivalente a `[0-9]`

**\s**: Matches en las que una cadena contiene cualquier carácter de espacio en blanco. Equivalente a `[ \t\n\r\f\v]`

**\W**: Matches con cualquier carácter no alfanumérico. Equivalente a `[^a-zA-Z0-9_]`

**\D** - Matches con cualquier dígito que no sea. Equivalente a `[^0-9]`

**\S**: Matches en las que una cadena contiene cualquier carácter que no sea un espacio en blanco. Equivalente a `[^ \t\n\r\f\v]`



-----------------------------------------------------------------------------------------------------------


## Un poco de práctica
Ahora es tu turno.

#### Validación simple de un nombre de usuario
https://www.codewars.com/kata/56a3f08aa9a6cc9b75000023
    
Escriba una expresión regular simple para validar un nombre de usuario. Los caracteres permitidos son:

- letras minusculas,
- números,
- guion bajo

La longitud debe estar entre 4 y 16 caracteres (ambos incluidos).


In [6]:
import re    # Importamos la librería necesaria para trabjar con métodos y funciones de Ragex

def validate_usr(username):    # creo una función para validar un username. Tiene un sólo argumento (username)
    check = re.compile(      # Comenzamos definiendo la variable check = que va a ser la función re.compile( con el pattern que queremos utilizar)
        r"[a-z0-9_]{4,16}"   # Esta es la parte del ---pattern--- (que se refiere e todos esos símbolos que componen la Regular Expresion)
        )
    if re.fullmatch(  # Creamos una condición con re.fullmatch(if todo el string(username) coincide con el pattern(check) de la expresión regular) retorna True
        check, 
        username
        ):
        return True 
    else:
        return False  # Y si nuestra condición if no se cumple, pasamos al else que retorna False

validate_usr('antonio1986') # Llamamos a nuestra función y le damos un argumento

True

#### Regex validate PIN code 

https://www.codewars.com/kata/55f8a9c06c018a0d6e000132

ATM machines allow 4 or 6 digit PIN codes and PIN codes cannot contain anything but exactly 4 digits or exactly 6 digits.

If the function is passed a valid PIN string, return true, else return false.

Examples:
```python
"1234"   -->  True
"12345"  -->  False
"a234"   -->  False
```

#### Regex validar código PIN

https://www.codewars.com/kata/55f8a9c06c018a0d6e000132

Los cajeros automáticos permiten códigos PIN de 4 o 6 dígitos y los códigos PIN no pueden contener nada más que exactamente 4 dígitos o exactamente 6 dígitos.

Si a la función se le pasa una cadena de PIN válida, devuelve verdadero, de lo contrario, devuelve falso.

Ejemplos:
```python
"1234"   -->  True
"12345"  -->  False
"a234"   -->  False
```

In [10]:
import re      # Importamos la librería necesaria para trabjar con métodos y funciones de Ragex

def validate_pin(pin):    # creo una función para validar un PIN. Tiene un sólo argumento (pin) devuelve verdadero, de lo contrario, devuelve falso.
    pattern1 = re.compile(  # Comenzamos definiendo la variable pattern1 = que va a ser la función re.compile( con el patrón que queremos utilizar)  
        r"[0-9]{4}" # Esta es la parte del ---pattern--- (que se refiere e todos esos símbolos que componen la Regular Expresion)   
        )
    pattern2 = re.compile(  # Definimos la variable pattern2 = que va a ser la función re.compile( con el patrón que queremos utilizar)
        r"[0-9]{6}"  # Esta es la parte del ---pattern--- (que se refiere e todos esos símbolos que componen la Regular Expresion)
        )

    if re.fullmatch( # Creamos una condición con re.fullmatch(if todo el string(pin) coincide con el pattern(pattern1) de la expresión regular) 
        pattern1, pin
        ) or re.fullmatch(  # O que se cumpla la condición con re.fullmatch(if todo el string(pin) coincide con el pattern(pattern2) de la expresión regular)
            pattern2, pin
            ):
        return True  # retorna True
    else: 
        return False  # Y si nuestra condición if no se cumple, pasa al else y nos retorna False

print(validate_pin('456789'))
print(validate_pin('45678'))      # Llamamos a nuestra función, le damos un argumento y la pintamos
print(validate_pin('abc45678'))

True
False
False


-----------------------------------------------------------------------------------------------------------

# El desafío del FBI

- https://www.fbi.gov/scams-and-safety/common-fraud-schemes/nigerian-letter-or-419-fraud
- https://www.kaggle.com/rtatman/fraudulent-email-corpus

Es tu primer día en la oficina del FBI y tu jefe acaba de enviarte un archivo `txt`: `emails.txt`, te pidió que hicieras un análisis, pero antes que nada, necesitas obtener un marco de datos como el siguiente. Necesitará algunos conocimientos de Python y algunas expresiones regulares para ese objetivo.

In [47]:
df.head()

Unnamed: 0,sender_email,sender_name,date_sent,time_sent,subject
0,james_ngola2002@maktoob.com,"""MR. JAMES NGOLA.""",31 Oct 2002,02:38:20,URGENT BUSINESS ASSISTANCE AND PARTNERSHIP
1,bensul2004nng@spinfinder.com,"""Mr. Ben Suleman""",31 Oct 2002,05:10:00,URGENT ASSISTANCE /RELATIONSHIP (P)
2,obong_715@epatra.com,"""PRINCE OBONG ELEME""",31 Oct 2002,22:17:55,GOOD DAY TO YOU
3,obong_715@epatra.com,"""PRINCE OBONG ELEME""",31 Oct 2002,22:44:20,GOOD DAY TO YOU
4,m_abacha03@www.com,"""Maryam Abacha""",1 Nov 2002,01:45:04,I Need Your Assistance.


---------------------------------------------------------------------------------------------------------------------------

#### Como somos buena gente, aquí tenéis una propuesta de solución

In [11]:
emails_info={}

In [40]:
fh = open("emails.txt", "r").read()

In [41]:
fh.count("From r")

3977

In [42]:
contents = re.split(r"From r", fh)

In [43]:
contents[:2]

['',
 '  Wed Oct 30 21:41:56 2002\nReturn-Path: <james_ngola2002@maktoob.com>\nX-Sieve: cmu-sieve 2.0\nReturn-Path: <james_ngola2002@maktoob.com>\nMessage-Id: <200210310241.g9V2fNm6028281@cs.CU>\nFrom: "MR. JAMES NGOLA." <james_ngola2002@maktoob.com>\nReply-To: james_ngola2002@maktoob.com\nTo: webmaster@aclweb.org\nDate: Thu, 31 Oct 2002 02:38:20 +0000\nSubject: URGENT BUSINESS ASSISTANCE AND PARTNERSHIP\nX-Mailer: Microsoft Outlook Express 5.00.2919.6900 DM\nMIME-Version: 1.0\nContent-Type: text/plain; charset="us-ascii"\nContent-Transfer-Encoding: 8bit\nX-MIME-Autoconverted: from quoted-printable to 8bit by sideshowmel.si.UM id g9V2foW24311\nStatus: O\n\nFROM:MR. JAMES NGOLA.\nCONFIDENTIAL TEL: 233-27-587908.\nE-MAIL: (james_ngola2002@maktoob.com).\n\nURGENT BUSINESS ASSISTANCE AND PARTNERSHIP.\n\n\nDEAR FRIEND,\n\nI AM ( DR.) JAMES NGOLA, THE PERSONAL ASSISTANCE TO THE LATE CONGOLESE (PRESIDENT LAURENT KABILA) WHO WAS ASSASSINATED BY HIS BODY GUARD ON 16TH JAN. 2001.\n\n\nTHE INCIDE

In [29]:
contents[0]

''

In [17]:
contents.pop(0)

''

- sender_email
- sender_name
- date_sent
- time_sent
- subject


### Info Sender

In [60]:
# Get Senders

import re
text = fh
pattern = re.compile(r'^From: (.+)|^To: (.+)|^Subject: (.+)', re.MULTILINE)
for match in pattern.finditer(text):
    print(match.group())

From: "MR. JAMES NGOLA." <james_ngola2002@maktoob.com>
To: webmaster@aclweb.org
Subject: URGENT BUSINESS ASSISTANCE AND PARTNERSHIP
From: "Mr. Ben Suleman" <bensul2004nng@spinfinder.com>
To: R@M
Subject: URGENT ASSISTANCE /RELATIONSHIP (P)
From: "PRINCE OBONG ELEME" <obong_715@epatra.com>
To: webmaster@aclweb.org
Subject: GOOD DAY TO YOU
From: "PRINCE OBONG ELEME" <obong_715@epatra.com>
To: webmaster@aclweb.org
Subject: GOOD DAY TO YOU
From: "Maryam Abacha" <m_abacha03@www.com>
To: R@M
Subject: I Need Your Assistance.
From: Kuta David <davidkuta@postmark.net>
To: davidkuta@yahoo.com
Subject: Partnership
From: "Barrister tunde dosumu" <tunde_dosumu@lycos.com>
Subject: Urgent Attention
From: "William Drallo" <william2244drallo@maktoob.com>
To: webmaster@aclweb.org
Subject: URGENT BUSINESS PRPOSAL
From: "MR USMAN ABDUL" <abdul_817@rediffmail.com>
To: R@M
Subject: THANK YOU
From: "Tunde  Dosumu" <barrister_td@lycos.com>
Subject: Urgent Assistance
From: MR TEMI JOHNSON <temijohnson2@rediffm

<re.Match object; span=(17360226, 17360254), match='To: undisclosed-recipients:;'>

### Info Dates

In [42]:
# Get Dates

3977

### Subject

In [19]:
# Get Subjects

### Creating DataFrame

In [46]:
# Create DataFrame

Unnamed: 0,sender_email,sender_name,date_sent,time_sent,subject
0,james_ngola2002@maktoob.com,"""MR. JAMES NGOLA.""",31 Oct 2002,02:38:20,URGENT BUSINESS ASSISTANCE AND PARTNERSHIP
1,bensul2004nng@spinfinder.com,"""Mr. Ben Suleman""",31 Oct 2002,05:10:00,URGENT ASSISTANCE /RELATIONSHIP (P)
2,obong_715@epatra.com,"""PRINCE OBONG ELEME""",31 Oct 2002,22:17:55,GOOD DAY TO YOU
3,obong_715@epatra.com,"""PRINCE OBONG ELEME""",31 Oct 2002,22:44:20,GOOD DAY TO YOU
4,m_abacha03@www.com,"""Maryam Abacha""",1 Nov 2002,01:45:04,I Need Your Assistance.


### ¡Now you can start your analysis!