# Regular Expressions in Biology... but not only

### Some basics preparing for using regex: python string formatting and lists
#### Difference between formatted and raw text in Python (`f`, vs `r`)

In [1]:
x=5198475623874653872645
print(f"The secret number is {x}")

The secret number is 5198475623874653872645


In [2]:
x=5198475623874653872645
print(r"The secret number is {x}")

The secret number is {x}


#### Lists in Python

In [3]:
mylist=[1,2,3,"hello", 5.888]

In [4]:
print(type(mylist))

<class 'list'>


In [5]:
mylist[0]

1

In [6]:
mylist[3]

'hello'

In [7]:
mylist[4]

5.888

# re (RegEx - Regular Expressions) - Just for the reference
(Regular Expressions - Expresiones Regulares)

Los datos no siempre están listos para ser utilizados para el aprendizaje automático. A menudo, los datos deben extraerse de conjuntos de datos muy diversos y "sucios". Por ejemplo, los números (unidades físicas o números de teléfono) o los correos electrónicos se pueden ocultar en el texto largo y deben encontrarse y extraerse.

Module `re` no es fácil de aprender..., pero es muy poderoso en la ciencia de datos y se utiliza  para el propósito mencionado anteriormente. Por ejemplo, nosotros, como humanos, somos buenos para reconocer patrones. Es intuitivo decir que 304-359-3348 es un número de teléfono, pero 1000.000.000 no lo es. Las expresiones regulares son descripciones de un patrón de texto. Por ejemplo, un `\d` en un regex de Python significa un carácter de dígito, en otras palabras, cualquier número único de 0 a 9. Para encontrar cualquier número en el formato anterior se puede usar el regex tipo: `\d\d\d-\d\d\d-\d\d\d\d` para hacer coincidir una cadena de tres números, un guion, tres números más, otro guión y cuatro números. Cualquier otra cosa no coincidiría con este patrón de regex.

`re` tiene muchos métodos y guías más completas los explican todos con detalle (https://www.w3schools.com/python/python_regex.asp, https://docs.python.org/3/howto/regex.html), pero el método más común es `re.findall()`.

## ALL (most) pattern elements

* `\d` - matches any digit from 0 a 9.
* `\d{3}` means three digits
* `\d{2,3}` means minimum two and maximum three digits
* `\d{2,}` means at least two digitser
* `\d+` means any number of repeating digits
* `\D` - matches any NON digit 
* `\S` - matches character THAT iS NOT a white space character
* `.` - matches single any character (including space but except newline character)
* `\s` matches space ONLY (or just put space)
* `\w` - matches any alfanumeric character. Equivalent to [a-zA-Z0-9].
* `\w{3}` means three letters or digits
* `\w{2,3}` means minimum two letters or digits and maximum three letters or digits
* `\w{2,}` means at least two letters or digits
* `\.` - matches a dot
* `\b` matches a word boundary.

* `$` end of the string
* `^` beginning of string
* `*` zero or more occurences
* `+` one or more occurences
* `^` for example [^abc] means anything EXCEPT those three letters
* `(....)`	Capturing group

* `.*` - matches any character zero or many times
* `\d+` means any number of repetitions of any digit character
* `\w+` means any number of repetitions of any alphanumeric character

##### other
* `(?:....)`	Non-Capturing group
* `(?i)` means case insensive 
* `\g<1>` refers to a group number (used more oftern for `re.sub`)
https://re-thought.com/python-regular-expressions/

# The re module offers a set of functions that allows us to search a string for a match:
* `re.findall()` 	Returns a list containing all matches
* `re.sub()` 	Replaces one or many matches with a string
* `re.search()` 	Returns a Match object if there is a match anywhere in the string
* `re.split()` 	Returns a list where the string has been split at each match

# `re.findall(<regex>, <cadena>, flags=0)` 
devuelve una LISTA de cadenas que contiene todas las coincidencias. Por ejemplo, imagine un comentario que un empleado de un banco escribió sobre un número de teléfono de un cliente:

#### More powerful tools for genetics are here https://www.ncbi.nlm.nih.gov/, but very likely some of them rely on regex!

In [8]:
import re
DNA_sequence=r'''CTGGCGACCGGAGGGCGACAACGGCG
GCTGGGATGGTTAGTACTCGGGGCCCAGGCGGCCATGGGAGAG
GTGCAGCTGTTGGAGTCTGGGGGAGGCCTGGTACAGCCTGGGG
GGTCCCTGAGACTCTCCTGCGCAGCCTCTGGATTCACTTTTGA
GCAATATGATATGCGCTGGGTCCGCCAGGCTCCTGGGAAGGGG
CTGGAGTGGGTCAGTGCGATCAGCCGCGAGGGCAGAGCCACGT
ATTATGCAGACTCCGTGAAGGGCCGATTCACCATCTCCAGAGA
CAACTCCAAGAACACACTGTATCTGCAAATGAACAGCCTGAGA
GCCGAGGACACGGCTGTGTATTACTGCGCTAGAGACTTGGGTG
ACTATTGGGGCCAAGGAACCCTGGTCACCGTCTCCTCAGGTGG
CGGTGGATCGGGCGGTGGTGGATCTGGAGGAGGTGGCTCGGAC
ATCCAGATGACCCAGTCTCCATCCTCCCTGTCTGCATCTGTAG
GAGACAGAGTCACCATCACTTGCTCTGGAGATAAGTTGGGACA
TACGTATACCTCCTGGTACCAACAGAAACCAGGGAAAGCCCCT
AAGCTCCTGATCTATCATGATAATAAGCGCCCTTCAGGGGTCC
CTTCAAGGTTCAGTGGCAGTGGATCTGGGACAGATTTCACTCT
CACCATCAGCAGTCTGCAGCCTGAAGATTTTGCAACTTATTAC
TGCTCTACTAGATCAAGCAAGGGCAATCCACACGTCCTGTTCG
GCCAAGGACCAAAGTGGAGATCAAAAGGCCCGGGAGGCCAACA
CCATCACCACCATCATGGCGCATATCCGTATGATGTGCCGGAC
TATGCTTCTTAGCCGAAACTGTTGAAAGTTGTTTAGCAAAACC
TCATACAGAAAATTCATTTACTAACGTCTGGAAGACGACAAAC
TTTAGATCGTTACGCTAACTATGAGGCTGTCTGTGGATGCTAC
AGCGTTGTGGTTTGTACTGTGACGAAACTCATGTTACGGTACA
TGGTTCTATTGGCTGCTATCCTGAAATGAAGTGTGCTCTGAAG
GTGGCCGTTCTGAGGGTGGCGTTCTGAAGTGACGTACTTAAAC
ATCTGAGATACGTGATATACCTATTTCCGGGGCTATATCTTAT
ATATAAACCCTCTCTGACG'''

In [9]:
# return the sequence TCGA
regex=r"TCGA" # r means raw ("crudo" sin formatear)
re.findall(regex, DNA_sequence)

[]

In [10]:
# return sequence TCGA or CGAT
regex=r"TCGA|CGAT"
re.findall(regex, DNA_sequence)

['CGAT', 'CGAT']

In [11]:
#TC then anything else then GAT
regex=r"TC.*GAT"
re.findall(regex, DNA_sequence)

['TCCCTGAGACTCTCCTGCGCAGCCTCTGGAT',
 'TCAGTGCGAT',
 'TCCGTGAAGGGCCGAT',
 'TCGGGCGGTGGTGGAT',
 'TCCAGAT',
 'TCACCATCACTTGCTCTGGAGAT',
 'TCCTGATCTATCATGAT',
 'TCAAGGTTCAGTGGCAGTGGATCTGGGACAGAT',
 'TCAGCAGTCTGCAGCCTGAAGAT',
 'TCTACTAGAT',
 'TCACCACCATCATGGCGCATATCCGTATGAT',
 'TCGTTACGCTAACTATGAGGCTGTCTGTGGAT',
 'TCTGAGATACGTGAT']

In [12]:
#TC then anything else then GAT
regex=r"TC.+GAT"
re.findall(regex, DNA_sequence)

['TCCCTGAGACTCTCCTGCGCAGCCTCTGGAT',
 'TCAGTGCGAT',
 'TCCGTGAAGGGCCGAT',
 'TCGGGCGGTGGTGGAT',
 'TCCAGAT',
 'TCACCATCACTTGCTCTGGAGAT',
 'TCCTGATCTATCATGAT',
 'TCAAGGTTCAGTGGCAGTGGATCTGGGACAGAT',
 'TCAGCAGTCTGCAGCCTGAAGAT',
 'TCTACTAGAT',
 'TCACCACCATCATGGCGCATATCCGTATGAT',
 'TCGTTACGCTAACTATGAGGCTGTCTGTGGAT',
 'TCTGAGATACGTGAT']

In [13]:
# must start with C or T, then GC then must finish with T or A
regex=r"[CT]GC[AC]"
re.findall(regex, DNA_sequence)

['TGCA',
 'CGCA',
 'CGCC',
 'TGCA',
 'TGCA',
 'TGCA',
 'CGCC',
 'TGCA',
 'TGCA',
 'CGCA',
 'TGCC']

In [14]:
#find repetition of the same letter minimum 3 times maximu 4 times then T
regex=r"[C]{3,4}T"
re.findall(regex, DNA_sequence)

['CCCT', 'CCCT', 'CCCT', 'CCCCT', 'CCCT', 'CCCT']

In [15]:
# must not start with C or T or G, then GA then must finish with T
regex=r"[^CTG]GA[T]"
re.findall(regex, DNA_sequence)

['AGAT', 'AGAT', 'AGAT', 'AGAT', 'AGAT', 'AGAT', 'AGAT', 'AGAT']

# But RegEx is versatile!

In [16]:
bank_comment='Sr. James García tiene 40 anos'

In [17]:
import re
re.findall(r"\d\d", bank_comment)

['40']

In [18]:
bank_comment='Sr. James García tiene cuenta bancaria 2345-6789 '

In [19]:
import re
re.findall(r"\d\d\d\d-\d\d\d\d", bank_comment)

['2345-6789']

In [20]:
bank_comment='''Sr. James García tiene varios números. 
El numero principal es 304-359-3348, 
pero dijo que despues de 5pm y antes de 7am usa este 315-309-3308, 
En caso de emergencia se puede llamar a su esposa María al 305-605-5001.'''

Para extraer solo los números de este texto e ignorar cualquier otra cosa, se puede obtener el patrón de los dígitos.

In [21]:
import re
re.findall(r"\d\d\d-\d\d\d-\d\d\d\d", bank_comment)

['304-359-3348', '315-309-3308', '305-605-5001']

*Es un buen hábito poner la letra `r` al frente de `"regex"`, eso significa el texto "crudo", sin formateo.

* {} - corchetes rizados

Para no escribir tantos `\d` en regex se puede usar `{}` donde se pone el número de dígitos. Entonces la expresión regular regex: `\d\d\d-\d\d\d-\d\d\d\d` para el mismo patrón también se puede definir como `\d{3}-\d{3}-\d{4}`.   

`\d{n,m}` significaría al menos `n` y a lo más `m` repeticiones del patrón que se le deja. 

In [22]:
re.findall(r"\d{3}-\d{3}-\d{4}", bank_comment)

['304-359-3348', '315-309-3308', '305-605-5001']

* [] - Los corchetes especifican un conjunto de dígitos o caracteres que desea que coincidan.

Este RegEx [123456789]{2, 4} coincide con al menos dos dígitos, pero no más de cuatro dígitos de conjunto '1-9' (excluyendo '0').

En el ejemplo regex del número de teléfono`\d` podría significar cualquier dígito numérico, pero hay 
muchas de estas clases de caracteres taquigráficos, lo más comunes son:

* `\d` - Coincide con CUALQUIER DÍGITO decimal, equivalente a cualquier número individual de 0 a 9.

* `\S` - Coincide con CUALQUIER CARÁCTER que no sea un espacio, tabulación o nueva línea.

* `\w` - Coincide con CUALQUIER CARÁCTER ALFANUMÉRICO (dígitos y alfabetos) o el carácter de subrayado. Equivalente a [a-zA-Z0-9_] (sin guion).
* `\s` - Coincide SOLAMENTE con espacio ` `.

* `\.` - Coincide SOLAMENTE con un punto `.`

* MetaCaracteres 
Para definir expresiones regulares se utilizan metacaracteres. Por ejemplo, `\` y `?` son metacaracteres. Los metacaracteres son caracteres que son interpretados de manera especial por un motor RegEx. Por ejemplo:


* `()` - paréntesis () se utiliza para agrupar subpatrones. Por ejemplo, (a|b|c)xz coincide con cualquier cadena que coincida con 'a' o 'b' o 'c' seguida de xz.
* `+` - el símbolo que más coincide con una o más apariciones del patrón que se le deja.

Entonces
* `\d+` significaría cualquier número de repeticiones de dígitos [0-9] 
* `\w+` significaría cualquier número de repeticiones del carácter alfanumérico  
* `\S+` significaría cualquier número de repeticiones de cualquier carácter excepto el espacio ` `

In [23]:
re.findall(r"\d+-\d+-\d+", bank_comment)
#buscar patrón: cualquier número de dígitos hasta el guion, luego cualquier número de dígitos hasta el guion, luego cualquier número de dígitos

['304-359-3348', '315-309-3308', '305-605-5001']

Un ejemplo más:  Para extraer los horarios del comentario 'bank_comment' ('5pm') que escribió el empleado del banco podemos utilizar el siguiente regex: 

In [24]:
re.findall(r'\d{1}pm|\d{1}am', bank_comment,flags=re.I)
#buscar patrón: un dígito después dos letras 'pm' o un dígito después letras 'am'

['5pm', '7am']

Donde se usa `|` como un operador (am `o` pm) y `flags=re.I`. Aquí `re.I` significa ignorar el caso de las letras.

* `(....)`	Capturing group
* `(?:....)`	Capturing group (sometimes is important)

In [25]:
text1=r"Jack owes me USD200, and Mary owes me USD500."
re.findall(r'USD(\d+)',text1)

['200', '500']

In [26]:
buried_phone_number = 'You are the 987 th caller in line for 1234567890. Please continue to hold .'
re.findall(r'\d{10}', buried_phone_number)

['1234567890']

In [27]:
# extract only three first digits from the matched 10 digits number
# using capturing group
re.findall(r'(\d{3})\d{7}', buried_phone_number)

['123']

* `\s` means space
* `space ( )` means space

In [28]:
text1=r"Jack owes me USD 200, and Mary owes me USD 500."
re.findall(r'USD \d+',text1)

['USD 200', 'USD 500']

* Match any sequence of characters not containing some characters [...]
* `^` for example [^abc] means anything EXCEPT those three letters

In [29]:
# extracting emails from a string
emails3='Dr Juan Marquez usa correos: adr_marquez@email.co dr_marquez@email.co marquez@hotmail.com'
regex=r"\S+@\S+"
re.findall(regex, emails3)

['adr_marquez@email.co', 'dr_marquez@email.co', 'marquez@hotmail.com']

In [30]:
# or excluding unwanted characters
emails3='Dr Juan Marquez usa correos: adr_marquez@email.co, dr_marquez@email.co ,marquez@hotmail.com'
re.findall(r"[^,\s]+@[^,\s]+", emails3)

['adr_marquez@email.co', 'dr_marquez@email.co', 'marquez@hotmail.com']

#### Example: Extracting names

* \b matches a word boundary.
* (?i) means case insensive
*  ^ matches the beginning of a STRING.
* $ matches the end of a STRING.

In [31]:
text="Tom. Let's talk about him. He often forgets to capitalize tom, his name. Oh, and don't match tomorrow."

In [32]:
re.findall(r"\b[T]om\b", text)

['Tom']

In [33]:
# ignore case
re.findall(r"\b[T]om\b", text, flags=re.I)

['Tom', 'tom']

#### find all sequence that are at the end of the the string
* `$` end of the string
* `^` beginning of string
* `.` any character (except newline character)
* `*` zero or more occurences
* `+` one or more occurences
* `\(` parentheses

In [34]:
# find string that ends with: planet 
txt = "beautiful planet, my planet"
re.findall("planet$", txt)

['planet']

# re.sub() - `re.sub(<regex>, <replace>, <string>, count=0, flags=0)` 
El método devuelve una cadena donde las ocurrencias coincidentes se reemplazan con el contenido de la variable de reemplazo.

In [35]:
print('I would like some vegetables.'.replace('vegetables', 'pie'))
print(re.sub('vegetables', 'pie', 'I would like some vegetables.'))

I would like some pie.
I would like some pie.


In [36]:
veggie_request = 'I would like some vegetables, vitamins, and water.'

print('string method: replace')
print(veggie_request.replace('vegetables', 'pie').replace('vitamins', 'pie').replace('water', 'pie'))

print()
print('regex method: sub')
print(re.sub('vegetables|vitamins|water', 'pie', veggie_request))

string method: replace
I would like some pie, pie, and pie.

regex method: sub
I would like some pie, pie, and pie.


#### clear messy phone number 

In [37]:
# substitute \D - any non digit number with empty string
messy_phone_number = '(123) 456-7890'
print(re.sub(r'\D', '', messy_phone_number))

1234567890


# Exercises for self study:

In [38]:
# extract the uppercase word 
# PINEAPPLE

target_string = "The price of PINEAPPLE ice cream is 20"
regex=r""
re.findall(regex,target_string)

['',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

In [39]:
# extract the version of python BUT return only the first digit before the dot (use capturing group)
s = 'Python 3.10'
regex=r""
re.findall(regex,s)

['', '', '', '', '', '', '', '', '', '', '', '']

In [40]:
#Find words that have: between 7 and 8 characters
import re

str='''Au pays parfume que le soleil caresse,
J'ai connu, sous un dais d'arbres tout empourpres
Et de palmiers d'ou pleut sur les yeux la paresse,
Une dame creole aux charmes ignores.'''

#Type your answer here.

regex=r""
emails=re.findall(regex, str)


print(emails)

['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']


In [41]:
#You are given stock prices for related financial tickers. (Symbols representing companies in the stock market)
#Find a way to extract the tickers mentioned in the report.
#i.e.: TSLA, NFLX ...

import re

str=r"Some of the prices were as following TSLA:749.50, ORCL: 50.50, GE: 10.90, MSFT: 170.50, BIDU: 121.40. As the macroeconomic developments continue we will update the prices. "

regex=r""
re.findall(regex, str)


['',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

In [42]:
# Extract value of the time=...ms
signal='PING www.google.com (142.250.219.164) 56(84) bytes of data\
64 bytes from gru06s63-in-f4.1e100.net (142.250.219.164): icmp_seq=1 ttl=119 time=18.7 ms'

regex=r""
re.findall(regex,signal)

['',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

In [43]:
# print all the DNA sequences that contain sequence: "ATCG" (loop through the list elements)
sequences = ["ATCGGGGATCGAAGTTGAG", "ACGGCCAGUGUACN", "ATCGGGGATCGAAGTTGAG","ATCGGGGATCGAAAAGTTGAG"]

In [44]:
# find all sequences that have a pattern of 4 C's and 1 T's in any order: (example CCCT...)
sequences="TGATGCCGTCCACCTCAACTTGAGTGCTCCTAATGCGTTGC"

In [45]:
# extract emails from the string (note, there are commas (,) at the end of each email, so your regex should omit the comma: 
emails3='Dr Juan Marquez usa correos: adr_marquez@email.co, dr_marquez@email.co ,marquez@hotmail.com'
regex=r""
re.findall(regex, emails3)

['',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']