<img src="https://utn.educativa.org/archivos/logos/Logo_aula_virtual_2Mesa_de_trabajo_4-8.png" width=200 height=150 />

<center><h1 style="color:red">BIOINFORMÁTICA</h1></center>


# EXPRESIONES REGULARES

**Moises Gualapuro**

Uno de los problemas más comunes con que nos solemos encontrar al desarrollar cualquier programa informático, es el de procesamiento de texto. Esta tarea puede resultar bastante trivial para el cerebro humano, ya que nosotros podemos detectar con facilidad que es un número y que una letra, o cuales son palabras que cumplen con un determinado patrón y cuales no; pero estas mismas tareas no son tan fáciles para una computadora. Es por esto, que el procesamiento de texto siempre ha sido uno de los temas más relevantes en las ciencias de la computación. Luego de varias décadas de investigación se logró desarrollar un poderoso y versátil lenguaje que cualquier computadora puede utilizar para reconocer patrones de texto; este lenguale es lo que hoy en día se conoce con el nombre de expresiones regulares; las operaciones de validación, búsqueda, extracción y sustitución de texto ahora son tareas mucho más sencillas para las computadoras gracias a las expresiones regulares.


## ¿Qué son las Expresiones Regulares?

Las [expresiones regulares](https://es.wikipedia.org/wiki/Expresi%C3%B3n_regular), a menudo llamada también regex, son unas secuencias de caracteres que forma un `patrón de búsqueda`, las cuales son formalizadas por medio de una `sintaxis específica`. Los patrones se interpretan como un conjunto de instrucciones, que luego se ejecutan sobre un texto de entrada para producir un subconjunto o una versión modificada del texto original. Las expresiones regulares pueden incluir patrones de coincidencia literal, de repetición, de composición, de ramificación, y otras sofisticadas reglas de reconocimiento de texto . Las expresiones regulares deberían formar parte del arsenal de cualquier buen programador ya que un gran número de problemas de procesamiento de texto pueden ser fácilmente resueltos con ellas.


## ¿Para qué usamos las expresiones regulares?

Para los progrmadores en general y para resolver para muchos problemas biológicos, las expresiones regulares pueden salvar el día. Estas se pueden utilizar para: 

* **Recopilar información**: buscando patrones correspondientes a características estructurales o funcionales en los datos de secuencia (por ejemplo, sitios de unión de cebadores, sitios de unión de factores de transcripción, otros). De manera similar, las búsquedas simples pueden hacer coincidir el número de accesiones y genes, o extraer referencias de un manuscrito.

* **Navegar y analizar archivos de texto**: siempre que el texto está semiestructurado es fácil procesar usando expresiones regulares. 

* **Reemplazo más sofisticado**: a veces, desea reemplazar todas las cadenas que son similares a una cadena determinada (por ejemplo, con variaciones en mayúsculas o espacios). Las expresiones regulares le permiten buscar y reemplazar cadenas de acuerdo con patrones.

* **Acortar su código**: unas pocas líneas de expresiones regulares pueden reemplazar muchas líneas de código. Este es un aspecto controvertido ya que las expresiones regulares son compactas, pero notoriamente difíciles de leer.

2020_cghta_gt_d1.txt

2020_cghta_gt_d2.txt

2020_cghta_gt_d3.txt

2020_cghta_gt_d4.txt

2020_fdshf_gt_d1.txt

2020_fdshf_gt_d2.txt

2020_fdshf_gt_d3.txt

2020_fdshf_gt_d4.txt


## Componentes de las Expresiones Regulares
Las expresiones regulares son un mini lenguaje en sí mismo, por lo que para poder utilizarlas eficientemente primero debemos entender los componentes de su sintaxis; ellos son:

* **Literales**: Cualquier caracter se encuentra a sí mismo, a menos que se trate de un metacaracter con significado especial. Una serie de caracteres encuentra esa misma serie en el texto de entrada, por lo tanto la plantilla "ATTT" encontrará todas las apariciones de "ATTT" en el texto que procesamos.

* **Secuencias de escape**: La sintaxis de las expresiones regulares nos permite utilizar las secuencias de escape que ya conocemos de otros lenguajes de programación para esos casos especiales como ser finales de línea, tabs, barras diagonales, etc. Las principales secuencias de escape que podemos encontrar, son:



### Ejemplo expresiones regulares
Siempre se requiere elementos de prueba en vivo para crear un Regex, ya que puede complicarse con mucha facilidad. La mejor manera es usar la estrategia **"divide y vencerás"**: divide tu Regex en varios Regex más pequeños, y luego combínalos todos. Por ejemplo, se tiene la siguiente expresión regular que busca un patrón de correo electrónico:

```python
/[\w._%+-]+@[\w.-]+\.[a-zA-Z]{2,4}/

```

<img src="https://www.novixys.com/blog/wp-content/uploads/2018/02/regex.png" width=600 height=450 />

# Expresiones regulares en Python

Python tiene un módulo (librería) para trabajar con **r**egular **e**xpressions (expresiones regulares), es la librería `re`. 

In [None]:
import re

## Sintaxis general de expresiones regulares (REGEX)

En general, las letras y los caracteres coinciden con ellos mismos. "Python" va a coincidir con "Python" (pero no con "python"). Las excepciones a esta regla son los metacaracteres, que son caracteres que tienen un significado especial en el contexto del REGEX:

```python
. ^ $ * +? {[] \ | ()
```


Veamos el significado de los caracteres especiales más utilizados:

* `. (punto)`: Coincide con cualquier carácter, excepto la nueva línea: "ATT.T" coincidirá con "ATTCT", "ATTFT" pero no con "ATTTCT".

* `^ (carat)`: Coincide con el comienzo de la cadena: “^ AUG” coincidirá con “AUGAGC” pero no con “AAUGC”. Usar dentro de un grupo significa "opuesto".

* `$ (dólar)`: Coincide con el final de la cadena o justo antes de una nueva línea al final de la cadena: "UAA $" coincidirá con "AGCUAA" pero no con "ACUAAG".

* `* (asterisco)`: Coincide con 0 o más repeticiones del token anterior: "AT *" coincidirá con "AAT", "A", pero no con "TT".

* `+ (más)`: El REGEX resultante coincidirá con 1 o más repeticiones del REGEX anterior: "AT +" coincidirá con "ATT", pero no con "A".

* `? (signo de interrogación)`: El REGEX resultante coincide con 0 o 1 repeticiones del RE anterior. "¿A?" coincidirá con "A" o "AT".

* `(...)`: Coincide con cualquier expresión regular que esté entre paréntesis e indica el inicio y el final de un grupo. Para hacer coincidir los literales "(" o ")", use \ (o \), o enciérrelos dentro de una clase de caracteres: `[(] [)]`.

* `(?: ...)`: una versión no agrupada de paréntesis regulares. La subcadena que coincide con el grupo no se puede recuperar después de realizar una coincidencia.

* `{n}`: Exactamente n copias del REGEX anterior coincidirán: "(ATTG) {3}" coincidirá con "ATTGATTGATTG" pero no con "ATTGATTG".

* `{m, n}`: El REGEX resultante coincidirá de m a n repeticiones del REGEX anterior: “(AT) {3,5}” coincidirá con “ATATTATATAT” pero no con “ATATTATAT”. Sin m, coincidirá a partir de 0 repeticiones. Sin n, coincidirá con todas las repeticiones.

* `[] (corchetes)`: indica un conjunto de caracteres. “[A-Z]” coincidirá con cualquier letra mayúscula y “[a-z0-9]” coincidirá con cualquier letra minúscula o dígito. Los metacaracteres no están activos dentro de los conjuntos REGEX. “[AT *]” coincidirá con “A”, “T” o “*”. El ^ dentro de un conjunto coincidirá con el complemento de un conjunto. "[^ R]" coincidirá con cualquier carácter excepto "R".

* `\ (barra invertida)`: se utiliza para escapar de los caracteres reservados (para hacer coincidir caracteres como "?", "*"). Dado que Python también usa la barra invertida como carácter de escape, debe pasar una cadena sin procesar para expresar el patrón.

* `| (barra vertical)`: como en lógica, se lee como "o". Cualquier número de REGEX se puede separar por "|". “A | T” coincidirá con “A”, “T” o “AT”.

**Otras secuencias especiales**

* `\number`: El contenido del grupo del mismo número, comenzando desde 1
* `\A`: Solo al inicio de un texto 
* `\b`: Un texto en blanco, solo al inicio o final de una palabra
* `\B`: Un texto en blanco, solo si no está al inicio o final de una palabra
* `\d`: Cualquier decimal digito ([0-9])
* `\D`: Cualquier no dígito ([^0-9])
* `\s`: Cualquier caracter de espacio en blanco  ([\t\n\r\f\v])
* `\S`: Cualquier caracter que no es espacio en blanco ([^\t\n\r\f\v])
* `\w`: Cualquier caracter alfanumérico ([a-zA-Z0-9_])
* `\W`: Cualquier caracter no alfanumérico ([^a-zA-Z0-9_]
* `\Z`: Solo el final del caracter
* `\n`: Nueva linea, salto de línea
* `\t`: Espacio en forma de `tab`.

Puede revisar más detalles en https://learnbyexample.github.io/python-regex-cheatsheet/

## Funciones del módulo `re`

`re.search(pattern, string, flags=0)`

Examina a través de la string («cadena») buscando el primer lugar donde el pattern («patrón») de la expresión regular produce una coincidencia, y retorna un objeto match correspondiente. Retorna None si ninguna posición en la cadena coincide con el patrón; notar que esto es diferente a encontrar una coincidencia de longitud cero en algún punto de la cadena.

`re.match(pattern, string, flags=0)`

Si cero o más caracteres al principio de la string («cadena») coinciden con el pattern («patrón») de la expresión regular, retorna un objeto match correspondiente. Retorna None si la cadena no coincide con el patrón; notar que esto es diferente de una coincidencia de longitud cero. Si se quiere localizar una coincidencia en cualquier lugar de la string («cadena»), se utiliza search() en su lugar (ver también search() vs. match()).

`re.fullmatch(pattern, string, flags=0)`

Si toda la string («cadena») coincide con el pattern («patrón») de la expresión regular, retorna un correspondiente objeto match. Retorna None si la cadena no coincide con el patrón; notar que esto es diferente de una coincidencia de longitud cero.

`re.split(pattern, string, maxsplit=0, flags=0)`

Divide la string («cadena») por el número de ocurrencias del pattern («patrón»). Si se utilizan paréntesis de captura en pattern, entonces el texto de todos los grupos en el patrón también se retornan como parte de la lista resultante. Si maxsplit (máxima divisibilidad) es distinta de cero, como mucho se producen maxsplit divisiones, y el resto de la cadena se retorna como elemento final de la lista.

`re.findall(pattern, string, flags=0)`

Retorna todas las coincidencias no superpuestas del pattern («patrón») en la string («cadena»), como una lista de cadenas. La cadena es examinada de izquierda a derecha, y las coincidencias son retornadas en el orden en que fueron encontradas. Si uno o más grupos están presentes en el patrón, retorna una lista de grupos; esta será una lista de tuplas si el patrón tiene más de un grupo. Las coincidencias vacías se incluyen en el resultado.

`re.finditer(pattern, string, flags=0)`

Retorna un iterator que produce objetos de coincidencia sobre todas las coincidencias no superpuestas para pattern («patrón») de RE en la string («cadena»). La string es examinada de izquierda a derecha, y las coincidencias son retornadas en el orden en que se encuentran. Las coincidencias vacías se incluyen en el resultado.

`re.sub(pattern, repl, string, count=0, flags=0)`

Retorna la cadena obtenida reemplazando las ocurrencias no superpuestas del pattern («patrón») en la string («cadena») por el reemplazo de repl. Si el patrón no se encuentra, se retorna string sin cambios. repl puede ser una cadena o una función; si es una cadena, cualquier barra inversa escapada en ella es procesada. Es decir, \n se convierte en un carácter de una sola línea nueva, \r se convierte en un retorno de carro, y así sucesivamente. Los escapes desconocidos de las letras ASCII se reservan para un uso futuro y se tratan como errores. Otros escapes desconocidos como \& no se utilizan. Las referencias inversas, como \6, se reemplazan por la subcadena que corresponde al grupo 6 del patrón. 

`re.subn(pattern, repl, string, count=0, flags=0)`

Realiza la misma operación que sub(), pero retorna una tupla (new_string, number_of_subs_made).

`re.escape(pattern)`

Caracteres de escape especiales en pattern (» patrón»). Esto es útil si quieres hacer coincidir una cadena literal arbitraria que puede tener metacaracteres de expresión regular en ella. 

`re.purge()`

Despeja la caché de expresión regular.

In [None]:
import re
mo = re.search("hello", "fsjkgjkjghelloHello world, helloPython!")

print(mo)
mo.group()

<re.Match object; span=(9, 14), match='hello'>


'hello'

In [None]:
my_string = "a given string of forgiven sentence"
m = re.search(r"given", my_string)
print(m)

<re.Match object; span=(2, 7), match='given'>


In [None]:
# recupera el match 
m.group()

'given'

In [None]:
m = re.search(r"9", my_string)
print(m)

None


In [None]:
# Encontrando un espacio en blanco
my_string = "a given string of forgiven sentence"
m = re.search(r"\s", my_string)
print(m)
m.group()

my_string[1:7]

<re.Match object; span=(1, 2), match=' '>


' given'

In [None]:
# Encontrando un espacio en blanco seguido de 5 letras
my_string = "a g1ven string of forgiven sentence"
m = re.search(r"\s\w\w\w\w\w\s", my_string)
print(m)
m.group()


<re.Match object; span=(1, 8), match=' g1ven '>


' g1ven '

In [None]:
# Encontrando un espacio en blanco seguido de 5 letras usando conjuntos
m = re.search(r"\s\w{8}\s", my_string)
print(m.span())
m.group()

(17, 27)


' forgiven '

In [None]:
# Busca palabra que inicia con mayúscula o minúscula seguido de dos letras
my_string = "sunflowers are described on page 89"
m = re.search(r"[sS]\w{9}", my_string)
m.group()


'sunflowers'

In [None]:
# Busca valores números de dos dígitos
my_string = "sis sunflowers are described on page 89 of 189"
m = re.search(r"\d{2}", my_string)
m.group()

'89'

In [None]:
m = re.search(r"[0-9]{3}", my_string)
m.group()

In [None]:
m = re.search(r"\d{3}", my_string)
m.group()

'189'

In [None]:
 m = re.search(r"[^s-z]\w{6}", my_string)
m.group()

' sunflo'

In [None]:
# buscar mayúsculas que coincida una o más veces
re.search(r"[ACGT]+","A possible explanation is the motif ATTCGT.").group()


'A'

In [None]:
# buscar mayúsculas que coincida n o más veces 
re.search(r"[ACGT]+", "the motif ATTCGT").group()

'ATTCGT'

In [None]:
# Sobrepoblación y confusión
my_string = "once upon a time in a wonderland"
re.search(r".*\s", my_string).group()

'once upon a time in a '

In [None]:
# Hacer coincidir una sola vez
re.search(r".*?\s", "once upon a time in a wonderland").group()

'once '

In [None]:
# El patrón busca está al inicio
my_string = "SGTATA"

re.search(r"^TATA", my_string).group()

AttributeError: 'NoneType' object has no attribute 'group'

In [None]:
# El patrón está al final
re.search(r"TATA$", my_string).group()

'TATA'

In [None]:
# El patrón está al final y tiene cualqueir palabra separada por un espacio
re.search(r"\s\w*$", "once upon a time").group()

' time'

In [None]:
# Patrones opcionales 
my_string = "I found my mouse with a cat!"
re.search(r"cat|mouse", my_string).group()

'mouse'

In [None]:
my_string = "I found my cat with a mouse!"
re.search(r"cat|mouse", my_string).group()

'cat'

In [None]:
# Texto en raw (crudo) 
print("my long \n line")
print("")
print(r"my long \n line")

my long 
 line

my long \n line


In [None]:
# Sin definir un argumento opcional y colocando escape
my_string = r"my long * \n line"
re.search(r"\\n", my_string).group()

'\\n'

In [None]:
# 
with open("Marra2014_BLAST_data.txt") as f:
    # initiate counter for matches
    n_lines = 0
    counter = 0
    n_line = 0
    # search for pattern in each line
    for line in f:
        n_lines += 1
        m = re.search(r"[\d]{8}", line)
        # only if a match was found, increase counter
        # and print the line
        n_line += 1 
        if m:
            counter += 1
            print(line[0:150])
            print(n_line)
            
print(counter)

contig02512	ya035_human ame: full= zinc finger protein ensp00000383733	283	5	8.01E-18	89.20%

1920
contig10096	ya035_human ame: full= zinc finger protein ensp00000383733	305	5	1.08E-15	82.60%

8219
contig11912	YS060_HUMANRecName: Full=Putative uncharacterized protein LOC100996504	1117	1	1.08E-72	76.00%

9760
contig15979	YD021_HUMANRecName: Full=Putative uncharacterized protein ENSP00000382790	4491	3	0	68.00%

13389
4


In [None]:
print("El archivo tiene {0} líneas".format(n_lines))
print("Patrón encontrado en {0} líneas".format(counter))

El archivo tiene 25000 líneas
Patrón encontrado en 6 líneas


In [None]:
# Además hacer coincidir con el alelo MHC
with open("Marra2014_BLAST_data.txt") as f:
    for line in f:
        m = re.search(r"mhc[\s\w*]+[\sii\s]+\w*", line)
        if m:
            print(m.group())



mhc class ii antigen dqb2 flags
mhc class ii antigen dpb1 flags
mhc class ii antigen drb1*4 short
mhc class i region proline
mhc class i region proline
mhc	140	5	4
mhc	149	5	4
mhc	109	5	1
mhc	594	5	4
mhc class ii antigen dob flags
mhc class i antigen cw*8 flags
mhc class i antigen b*46 flags
mhc class ii regulatory factor rfx1 ame
mhc	129	5	5
mhc	166	5	1
mhc	249	5	9
mhc	138	5	6
mhc ii
mhc ii
mhc ii
mhc	246	5	2
mhc ii
mhc class ii transactivator short
mhc class ii transactivator short
mhc class ii transactivator short
mhc class i receptor 2 homolog	4096	5	0	82
mhc class i region proline
mhc restricted killing associated ame
mhc class ii
mhc class ii antigen drb1*1 short
mhc ii


Los componentes de la expresión regular:
* `mhc` coincidencia literal con los caracteres `mhc`.
* `[\s\w*]+` coincide con un espacio en lanco, luego cualquier caracter y el sub_patron se repite una o más veces.
* `\*` Coincide literlmente con el asterisco.
* `\w*` coincide con cualquier cantidad de caracteres.

### Funciones adicionales del módulo `re`

* re.findall(reg, target_string)
* re.finditer(reg, target_string) 
* re.compile(reg)
* re.split(reg, target_string)
* re.sub(reg, repl, target_string)

In [None]:
!pip install pyfaidx

Collecting pyfaidx
  Downloading pyfaidx-0.6.4.tar.gz (100 kB)
Building wheels for collected packages: pyfaidx
  Building wheel for pyfaidx (setup.py): started
  Building wheel for pyfaidx (setup.py): finished with status 'done'
  Created wheel for pyfaidx: filename=pyfaidx-0.6.4-py3-none-any.whl size=26559 sha256=0c1c98833bd002106604ecfe178dae7bd5fc9d7cc5a759997d9f97fdfb185498
  Stored in directory: c:\users\moisesg\appdata\local\pip\cache\wheels\7c\d2\81\90652014b0037f38690f73339f6e4f19039869d5da89e9a8b1
Successfully built pyfaidx
Installing collected packages: pyfaidx
Successfully installed pyfaidx-0.6.4


In [None]:
import re
import pyfaidx

# leer .fasta con pyfaidx.Fasta y lo transforma en diccionario
genes = pyfaidx.Fasta("Ecoli.fasta")

In [None]:
# Acceder al listado de claves del diccionario (identificadores de las secuencias) 
records = list(genes.keys())
records


['gi|556503834|ref|NC_000913.3|:1978338-2028069',
 'gi|556503834|ref|NC_000913.3|:4035299-4037302']

In [None]:
# extract first sequence from genes dictionary get sequence start to finish
seq1 = genes[records[0]][:]
seq1

>gi|556503834|ref|NC_000913.3|:1978338-2028069:1-49732
AATATGTCCTTACAAATAGAAATGGGTCTTTACACTTATCTAAGATTTTTCCTAAATCGACGCAACTGTACTCGTCACTACACGCACATACAACGGAGGGGGGCTGCGATTTTCAATAATGCGTGATGCAGATCACACAAAACACTCAATTACTTAACATAAATGGGTAATGACTCCAACTTATTGATAGTGTTTTATGTTCAGATAATGCCCGATGACTTTGTCATGCAGCTCCACCGATTTTGAGAACGACAGCGACTTCCGTCCCAGCCGTGCCAGGTGCTGCCTCAGATTCAGGTTATGCCGCTCAATTCGCTGCGTATATCGCTTGCTGATTACGTGCAGCTTTCCCTTCAGGCGGGATTCATACAGCGGCCAGCCATCCGTCATCCATATCACCACGTCAAAGGGTGACAGCAGGCTCATAAGACGCCCCAGCGTCGCCATAGTGCGTTCACCGAATACGTGCGCAACAACCGTCTTCCGGAGACTGTCATACGCGTAAAACAGCCAGCGCTGGCGCGATTTAGCCCCGACATAGCCCCACTGTTCGTCCATTTCCGCGCAGACGATGACGTCACTGCCCGGCTGTATGCGCGAGGTTACCGACTGCGGCCTGAGTTTTTTAAGTGACGTAAAATCGTGTTGAGGCCAACGCCCATAATGCGGGCTGTTGCCCGGCATCCAACGCCATTCATGGCCATATCAATGATTTTCTGGTGCGTACCGGGTTGAGAAGCGGTGTAAGTGAACTGCAGTTGCCATGTTTTACGGCAGTGAGAGCAGAGATAGCGCTGATGTCCGGCGGTGCTTTTGCCGTTACGCACCACCCCGTCAGTAGCTGAACAGGAGGGACAGCTGATAGAAACAGAAGCCACTGGAGCACCTCAAAAACACCATCATACACTAAATCAGTAAGTTGGCAGCATCACCCATAAATGTATA

In [None]:
# Longitud del contenido 
seq1.end

49732

In [None]:
# Extraer la secuencia (sin el identificador)
seq1_str = seq1.seq
# Imprimir primeros 40 caracteres
seq1_str[:40]

'AATATGTCCTTACAAATAGAAATGGGTCTTTACACTTATC'

In [None]:
# patrón específico
m = re.search(r"GATC", seq1_str)
m.group()

'GATC'

In [None]:
m.span()

(130, 134)

In [None]:
print(m.start())
print(m.end())

130
134


In [None]:
# Obtener todas las coincidencias
m = re.findall(r"CAG[ATCG]{6}GTGC|GCAC[ATCG]{6}GTT", seq1_str)
print(m)

['GCACCACCGCGTT', 'CAGTCATCGGTGC', 'CAGGAATTGGTGC', 'GCACAACAAGGTT', 'CAGCTGCGCGTGC', 'CAGAACATGGTGC', 'GCACCGCTGGGTT']


In [None]:
# Imprimir resultados
if m:
    print("Se tiene " + str(len(m)) + " coincidencias")
    print("Las coincidencias son:" + str(m))

Se tiene 6 coincidencias
Las coincidencias son:['AACAGCATCGTGC', 'AACTGGCGGGTGC', 'GCACCACCGCGTT', 'GCACAACAAGGTT', 'GCACCGCTGGGTT', 'AACCTGCCGGTGC']


In [None]:
# Obtener las coincidencias iterando
hits = re.finditer(r"AAC[ATCG]{6}GTGC|GCAC[ATCG]{6}GTT", seq1_str)
for item in hits:
    print(item.start() + 1, item.group(), item.end() + 1)

18452 AACAGCATCGTGC 18465
18750 AACTGGCGGGTGC 18763
25767 GCACCACCGCGTT 25780
35183 GCACAACAAGGTT 35196
40745 GCACCGCTGGGTT 40758
42032 AACCTGCCGGTGC 42045


In [None]:
# Guardar lo explorado
EcoKI = re.compile(r"AAC[ATCG]{6}GTGC|GCAC[ATCG]{6}GTT")
m = EcoKI.findall(seq1_str)
m

['AACAGCATCGTGC',
 'AACTGGCGGGTGC',
 'GCACCACCGCGTT',
 'GCACAACAAGGTT',
 'GCACCGCTGGGTT',
 'AACCTGCCGGTGC']

In [None]:
## Agrupamiento 
# match a G, followed by 2 T's
re.search(r"GT{2}", "ATGGTGTCCGTGTT").group()


'GTT'

In [None]:
# match GT twice
In [2]: re.search(r"(GT){2}", "ATGGTGTCCGTGTT").group()
Out[2]: 'GTGT'

In [None]:
with open("16S_regex_pattern.txt") as f:
    # read first line
    regpat = f.readline()
    # forward primer 799F,  secuencia , reverse primer 904R
    print(regpat)

seq2_str = genes[records[1]][:].seq
# compile regex pattern
amp = re.compile(regpat)
m = amp.search(seq2_str)
# now we can individually return the matched groups
# group(0) returns the entire match
# we look at only the first 40 nucleotides
m.group(0)[:40]


(AAC[AC]GGATTAGATACCC[GT]G)([ATCG]+)([CT]T[AG]AAACTCAAATGAATTGACGGGG)


'AACAGGATTAGATACCCTGGTAGTCCACGCCGTAAACGAT'

In [None]:
# group(1) returns the first group - our forward primer
m.group(1)



'AACAGGATTAGATACCCTG'

In [None]:
# group(2) is the variable middle part
# this is the sequence we're interested in
m.group(2)[:40]


'GTAGTCCACGCCGTAAACGATGTCGACTTGGAGGTTGTGC'

In [None]:
# we can perform further analysis on this group
len(m.group(2))


104

In [None]:
# group(3) is our reverse primer
m.group(3)

'TTAAAACTCAAATGAATTGACGGGG'

# Computación científica

Se utilizará `NumPy` y `SciPy`

In [None]:
%matplotlib inline
import numpy as np
import skimage.io as io

In [None]:
image = io.imread("scidata/Kacsoh2013_Drosobrain.png")
io.imshow(image)

NameError: name 'io' is not defined

In [None]:
image.shape

NameError: name 'image' is not defined

In [None]:
# extract the red channel
red = image[:,:,0]
print(red.mean())

print(red.std())

print(red.min())

print(red.max())

# extract the green channel
green = image[:,:,1]
# mean value of the green channel
print(green.mean())


NameError: name 'image' is not defined