# EXPRESIONES REGULARES

El módulo re contiene los métodos necesarios para analizar y buscar expresiones regulares en Python.

**import re**

**re.search(pattern,string)**

La función usa dos argumentos, el patrón y la cadena dónde hay que buscarlo


Para indicar a Python que ignore los caracteres especiales como *\t* o *\n* se puede usar *r* fuera de las comillas: **print(r”\t\n”)**

El resultado que devuelve **re.search()** es booleano, true/false

In [1]:
import re

In [None]:
# re.search(pattern,string)
# r se usa para que Python ignore caracteres especiales

In [2]:
dna = "ATCGCGAATTGAFCAC"
if re.search(r"GAZ", dna):
    print("restriction enzyme site found!")
else:
    print("Not site found!")

Not site found!


In [4]:
# Alternaciones
dna = "ATCGCGAATTCAC"
if re.search(r"ATT", dna) or re.search(r"CGAA", dna): #si encuentras este patrón o este imprime
    print("restriction enzyme site found!")

restriction enzyme site found!


In [5]:
dna = "ATCGCGAATTCAC"
if re.search(r"GC(G|C)AATT", dna): #un patrón que empieza por GC continua por una G o una C y termina en AATT
    print("restriction enzyme site found!")

restriction enzyme site found!


In [6]:
# Grupos de caracteres
dna = "ATCGCGGCAATTCAC"
if re.search(r"GC(A|T|G|C)GC", dna):
    print("restriction enzyme site found!")

restriction enzyme site found!


In [7]:
dna = "ATCGCGGCAATTCAC"
if re.search(r"GC[ATGC]GC", dna): #entre corteches se da todas las opciones que puede haber, es los mismo que la /
    print("restriction enzyme site found!")	

restriction enzyme site found!


In [8]:
# Negaciones
dna = "ATCGCGAATTCAC"
if re.search(r"GC[^N]", dna): #busca patrón que empiece por GC y luego un ncl que no sea N
    print("restriction enzyme site found!")

restriction enzyme site found!


In [9]:
# Extración de parte del patrón en una variable
dna = "ATGACGTACGTACGACTG"
# guarda los patrones en la variable m
m = re.search(r"GA[ATGC]{3}AC",dna) #encuentra patrón que empiece por GA... y esto repítelo 3 veces 1 de lo de dentro del corchete, 3 ncl de los q hay dentro de corchetes
m_pattern = m.group() #busca el patrón
print(m_pattern)

GACGTAC


In [19]:
m = re.search(r"GA[ATGC]{3}AC",dna) #"\d = significa dígito 
#m_pattern = m.group()
#print(m_pattern)

In [11]:
# Extrae un más de un bit del patrón
dna = "ATGACGTACGTACGACTG"
m = re.search(r"GA([ATGC]{3})AC([ATGC]{2})AC", dna)
print("entire match: " + m.group())
print("first bit: " + m.group(1))
print("second bit: " + m.group(2)) #para sacar zonas concretas de la zona que ha encontrado

entire match: GACGTACGTAC
first bit: CGT
second bit: GT


In [10]:
# Algunos métodos
dna = "ATGACGTACGTACGACTG"
m = re.search(r"GA([ATGC]{3})AC([ATGC]{2})AC", dna)
print("input string: " + dna)
print("entire match: " + m.group())

input string: ATGACGTACGTACGACTG
entire match: GACGTACGTAC


In [12]:
# Start()
print("start: " + str(m.start())) # posición de inicio

start: 2


In [13]:
# End()
print("end: " + str(m.end())) #posición de fin

end: 13


In [14]:
# Split()
dna = "ACTNGCATRGCTACGTYACGATSCGAWTCG"
runs = re.split(r"C", dna) #dividir la cadena por la c, la separa por la C, quita la C
print(runs)	

['A', 'TNG', 'ATRG', 'TA', 'GTYA', 'GATS', 'GAWT', 'G']


In [15]:
# Extraer  usando group()
dna = "ATGACGTACGTACGACTG"
m = re.search(r"GA([ATGC]{3})AC([ATGC]{2})AC", dna)
print("input string: " + dna)
print("entire match: " + m.group())
print("first bit: " + m.group(1))
print("second bit: " + m.group(2))

input string: ATGACGTACGTACGACTG
entire match: GACGTACGTAC
first bit: CGT
second bit: GT


In [16]:
# Finditer() detecta las bases erróneas 
dna = "CGCTCNTAGATGCGCRATGACTGCAYTGC" 

matches = re.finditer(r"[^ATGC]", dna) #extrae directamente el patrón y donde empieza
#busca la sec que NO tenga ni A,T,G,C
for m in matches: 
    base = m.group() 
    pos  = m.start() 
    print(base + " found at position " + str(pos)) #nos da las bases erroneas

N found at position 5
R found at position 15
Y found at position 25


In [17]:
dna = "CGCTCNTAGATGCGCRATGACTGCAYTGC" 

matches = re.finditer(r"[^ATGC]", dna) 

for i in matches:
    match = i.group()
    pos = i.start()
    print(f"La base {match} está en la posición {pos}")

La base N está en la posición 5
La base R está en la posición 15
La base Y está en la posición 25


In [18]:
# Findall()
dna = "CTGCATTATATCGTACGAAATTATACGCGCG" 
result = re.findall(r"[AT]{6,}", dna) #cuando hay más deñ mismo patrón de una misma variable
print(result)

['ATTATAT', 'AAATTATA']
