<font color="#002856"><h1 align="left">Programación con Python y R</h1></font>
<font color="#002856"><h2 align="left"> Búsquedas y expresiones regulares</h2></font> 

#### Profesor: Juan Francisco Vallalta Rueda
---

# Búsquedas y expresiones regulares I

### Buscando un string
Hemos estudiado diversos métodos para encontrar un substring en un string:
- `sitio in secuencia`: verifica si el substring *sitio* forma parte de la *secuencia
- `secuencia.find(sitio)`: devuelve el índice de la primera localización de *sitio* en la *secuencia*. Si no lo encuentra devuelve -1
- `secuencia.count(sitio)`: cuenta el número de veces que se encuentra *sitio* en la *secuencia*.

In [33]:
# ¿Está el antígeno p53 en la secuencia?
p53 = "MCNSSCMGGMNRR"
proteina = "SEFTTVLYNFMCNSSCMGGMNRRPILTIIS"

# Buscar p53 en la proteina
proteina.find(p53)

10

In [3]:
# Mostrar la subsecuencia
proteina[10:10+len(p53)]

'MCNSSCMGGMNRR'

### Patrones
Después de un tiempo, descubres que los p53 son variables en un residuo: MCNSSC**M**GGMNRR o MCNSSC**V**GGMNRR.
Podrías probar para ambos casos, pero a medida que se agregan más posibilidades se obtiene un número de patrones
muy grande, y escribirlos es tedioso.

Necesitamos un patrón. En lugar de escribir cada alternativa, tal vez podamos escribir un patrón, que se utiliza para describir todas las cadenas a probar: MCNSSCMGGMNRR o MCNSSCVGGMNRR.

MCNSSC[MV]GGMNRR

Utilizamos [] para indicar una lista de residuos que podrían coincidir. [FILAPVM] coincide con cualquier residuo hidrofóbico.

[Prosite](https://prosite.expasy.org/) es una base de datos de patrones de proteinas.

Por ejemplo, el patrón de consenso para es ANTENNAPEDIA ('Homeobox' antennapedia-type protein signature.) es: [LIVMFE]-[FY]-P-W-M-[KRQTA].

¿Lo puedes encontrar?

    MDPDCFAMSS YQFVNSLASC YPQQMNPQQN HPGAGNSSAG GSGGGAGGSG GVVPSGGTNG
    GQGSAGAATP GANDYFPAAA AYTPNLYPNT PQPTTPIRRL ADREIRIWWT TRSCSRSDCS
    CSSSSNSNSS NMPMQRQSCC QQQQQLAQQQ HPQQQQQQQQ ANISCKYAND PVTPGGSGGG
    GVSGSNNNNN SANSNNNNSQ SLASPQDLST RDISPKLSPS SVVESVARSL NKGVLGGSLA
    AAAAAAGLNN NHSGSGVSGG PGNVNVPMHS PGGGDSDSES DSGNEAGSSQ NSGNGKKNPP
    QIYPWMKRVH LGTSTVNANG ETKRQRTSYT RYQTLELEKE FHFNRYLTRR RRIEIAHALC
    LTERQIKIWF QNRRMKWKKE HKMASMNIVP YHMGPYGHPY HQFDIHPSQF AHLSA
    

Algunas secuencia que contienen el patrón:

- ...LHNEANLR**IYPWMR**SAGADR...
- ...PTVGKQ**IFPWMK**ES...
- ...**VFPWMK**MGGAKGGESKRTR...

### No un residuo dado
Supón que por razones estructurales sabes que un determinado residuo no puede ser una prolina. Podrías escribir: [ACDEFGHIKLMNQRSTVWY]

Esto es tedioso. Así que usaremos una notación especial: [^P]. De esta forma referenciaremos que el residuo no puede ser P.


### Sitio de N-glicosilación
Este es el patrón para PS00001, ASN_GLYCOSYLATION:

**N[^P][ST][^P]**

Coincide con una N, entonces cualquier cosa que no sea una P, luego una S o T, y finalmente, cualquier cosa que no sea una P.

### Permitir cualquier cosa
A veces, el patrón puede tener cualquier cosa en uns posición dada, solo necesita el espacio adecuado.
Podríamos usar [ACDEFGHJKLMNPQRSTVWY] pero eso es también tedioso. 

En cambio, consideremos una nueva notación para "cualquier cosa". Usemos el punto,“.” ,para que **P.P** coincida con una prolina seguido de cualquier residuo seguido de una prolina.

### Repeticiones
A veces un patrón se repetirá. Por ejemplo, un patrón puede requerir 5 residuos hidrofóbicos entre dos regiones bien conservadas.

Podrías escribirlo como [FILAPVM][FILAPVM][FILAPVM][FILAPVM][FILAPVM] pero esto también es laborioso. 

Utilizaremos una nueva notación.  Usemos {}s con un número dentro para indicar cuántas veces repetir el patrón anterior:

**[FILAPVM]{5}**

Los {} repiten el patrón anterior. El patrón anterior coincide con cualquier de estos:

- AAAAA
- AAPAP


Y **.{6}** coincide con cualquier cadena de una longitud de 6.

### EGF firma 1
El patrón para PS00022 es: **C.C.{5}G.{2}C**

Una C, seguida de cualquier residuo, seguido de una C, seguido de 5 residuos de cualquier tipo, luego una G, luego 2 de cualquier tipo de residuo, luego una C.

...VCSNEGKCICQPDWTGKDCS...

### Intervalos de repetición
A veces se puede tener un rango de repeticiones. Por ejemplo, un bucle puede tener de 3 a 5 residuos. Todos nuestros
patrones hasta ahora solo coincidieron con un número fijo de caracteres, por lo que necesitamos modificar la notación.

{m,n} - repite el patrón anterior al menos m veces y hasta n veces.

Por ejemplo, A{3, 5} coincide con AAA, AAAA y AAAAA pero no coincide con AA ni AATAA.

### Dominio similar a EGF firma 2
PS01186 es: C.C.{2}[GP][FYW].{4,8}C

Utilice un espaciador de al menos 4 residuos y hasta 8 residuos.

- RH**CYCEEGWAPDC**TTQLKA
- RH**CYCEEGWAPPDEC**TTQLKA
- RH**CYCEEGWAPPDEQC**TTQLKA
- RH**CYCEEGWAPPDEQWC**TTQLKA
- RH**CYCEEGWAPPDEQWIC**TTQLKA

### Versiones abreviadas de intervalos de repetición
Esta notación es muy poderosa y ampliamente utilizada fuera de bioinformática. Algunos intervalos de repetición se utilizan con tanta frecuencia que hay una notación especial para ellos.

- {0, 1} -> ? *opcional*
- {0,}   -> * *0 o más*
- {1,} ->   + *al menos uno*

### Terminales N y C
Algunas cosas solo suceden en la terminal N- (comienzo de la secuencia) o C-terminal (final de la secuencia).
No tenemos una manera de decir eso, así que necesitamos más notación:

- ^ significa el inicio de la secuencia (un ^ dentro  de [ ] significa "no", fuera significa "inicio")
- $ significa final de la secuencia

### Ejemplos
- ^A -> Empieza por A
- ^[MPK] -> Empieza por M, P o K
- E\$ -> Finaliza con E
- [QSN]\$ -> Finaliza con Q, S o N
- ^[^P] -> Empieza con cualquier cosa excepto P
- ^A.*E$ -> Empieza por A y finaliza con E

### Neuromodulina (GAP-43) firma 1
El patrón para PS00412 es: ^MLCC[LIVM]RR

- Coincide con: MLCCIRRTKPVEKNEEADQE
- No coincide: MMLCCIRRTKPVEKNEEADQE

### Retículo endoplásmico secuencia de focalización
El patrón para PS00014 es: [KRHQSA][DENQ]EL$

- Coincide con: ADGGVDDDHDEL
- No coincide: ADGGVDDDHDELQ

## Expresiones regulares

Este tipo de patrones que coinciden con cadenas se denominan "expresiones regulares". Se les suelen denomina: "regexp", "regex", o "re", o (raramente) "rx".

El módulo **re** en Python tiene funciones para trabajar con expresiones regulares.

In [34]:
# Importando el módulo re
import re

El método `search()`
El primer parámetro es el patrón, como una cadena.
La segunda es la cadena a buscar.
Utilizo una cadena r“en bruto” aquí. No es necesario, pero tú
debe usarlo para todos los patrones.

In [35]:
#  Búsqueda de una expresión regular
texto = "Mi nombre es Juan"
re.search(r"[JT]", texto)

<re.Match object; span=(13, 14), match='J'>

In [13]:
# Objeto Match
match = re.search(r"[JT]", texto)
match.start()

13

In [14]:
# Objeto match
match.end()

14

In [16]:
# Objeto match
texto[match.start():match.end()]

'J'

In [36]:
# Coincidencia con un motivo de proteína
pattern = r"[LIVMFE][FY]PWM[KRQTA]"
seq = "LHNEANLRIYPWMRSAGADR"
match = re.search(pattern, seq)
print('Inicio patrón: ', match.start())
print('Fin patrón: ', match.end())

Inicio patrón:  8
Fin patrón:  14


In [37]:
# Patrón
seq[match.start():match.end()]

'IYPWMR'

In [38]:
# Si no se encuentra el patrón
pattern = r"[LIVMFE][FY]PWM[KRQTA]"
match = re.search(pattern,"AAAAAAAAAAAAAA")
print(match)

None


In [24]:
# Listando patrones
pattern = r"[LIVMFE][FY]PWM[KRQTA]"
sequences = ["LHNEANLRIYPWMRSAGADR", "PTVGKQIFPWMKES", "NEANLKQIFPGAATR", "VFPWMKMGGAKGGESKRTR"]
for seq in sequences:
    match = re.search(pattern, seq)
    if match:
        print(seq, "Encontrado")
    else:
        print(seq, "No encontrado")

LHNEANLRIYPWMRSAGADR Encontrado
PTVGKQIFPWMKES Encontrado
NEANLKQIFPGAATR No encontrado
VFPWMKMGGAKGGESKRTR Encontrado


### Grupos

Supongamos que una enzima modifica una proteína y reconoce la parte de la secuencia que coincide
[TEA]{3,5}[LI][^P]{2,5}

La modificación solo ocurre en el residuo [IL]. Quiero conocer el residuo de ese único residuo, y no
las posiciones inicial/final de todo el motivo. Esto requiere una nueva notación, grupos.

Usa () para indicar grupos. El primer( es el comienzo de el primer grupo, el segundo ( es el comienzo del segundo
grupo, etc. Un grupo termina con el emparejamiento ).

In [26]:
pattern = r"[ASD]{3,5}([LI])[^P]{2,5}"
seq = "EASALWTRD"
match = re.search(pattern, seq)
print(match.start(), match.end())
print(match.start(1), match.end(1))

1 9
4 5


### Patrones abreviados
- \d = [0123456789]
- \w = letras, dígitos y el subrayado
- \s = “espacion en blanco” (espacio, nueva línea, tabulador)

### Calentando motores

###  Ejercicio 1 Buscando patrones

Verifica si el patrón motif = r'ATG.*?TAA' esta presente en la secuencia 'AATGAAGGGCCGCTACGATAAGGAACTTCGTAATTTCAG'. Si está imprime la posición inicial y final en la que aparece el patrón en la secuencia.

In [32]:
# Codigo Python

