# Módulo III : Trabajando con secuencias de ADN y proteínas

Hay una secuencia que es reconocida por la maquinaria transcripcional. Esa secuencia (puede haber tener más de una copia en el genoma) es donde comienza a replicarse el material genético.

Para encontrar tal secuencia, comenzemos por resolver problemas más simples que luego escalaremos para abarcar la complejidad del problema en cuestion. 

Dada una secuencia (genética, de texto, o lo que sea), empezemos por contar cuantas veces en ella está repetido un patrón. Por ejemplo, en la secuencia

```python
Texto="Hola, ¿como estas?. Hola, bien gracias. Y tú, ¿qué cuentas?"
```

1 ¿Cuántas vences aparece el patrón

```python
"Hola"?
```

2 ¿Cuántas vences aparece el patrón

```python
"as"?
```

Para esto puedes usar el siguiente seudocódigo:

```python
patron_contador(Texto, Patron)
    count ← 0
    for i ← 0 to |Texto| − |Patron|
        if Text(i, |Patron|) = Patron
            count ← count + 1
    return count
```

### 1.1 Contando patrones frecuentes

In [14]:
#Recordemos que para imprimir un texto debemos definirlo 
Texto="Biopython es una herramienta que nos ayuda a analizar secuencias de ADN y proteínas. Hoy aprenderemos a utilizar Biopython."
#y para visualizarlo simplemente agregamos print:
print(Texto)

Biopython es una herramienta que nos ayuda a analizar secuencias de ADN y proteínas. Hoy aprenderemos a utilizar Biopython.


In [4]:
#Recordemos del modulo I que podemos visualizar un rango del texto mediante la siguiente sintaxis:
Texto[0:9]

'Biopython'

In [15]:
# Largo de una cadena de caracteres
len(Texto) 

123

#### Implementar patron_contador()
La función "patron_contador" toma dos argumentos: "Texto" y "Patron". "Texto" es el texto en el que se buscará el patrón, y "Patron" es el patrón que se buscará en el texto.

In [9]:
#Implementar patron_contador(Text, Pattern)

#define el texto en el que se buscarán los patrones más frecuentes.
Texto="Biopython es una herramienta que nos ayuda a analizar secuencias de ADN y proteínas. Hoy aprenderemos a utilizar Biopython."
#define el patrón que se buscará en el texto.
Patron="Biopython"

def patron_contador(Texto,Patron):
    x=len(Texto)-len(Patron)+1 #La variable "x" se establece en la longitud del texto menos la longitud del patrón más uno. Esto se utiliza para determinar cuántas veces se debe iterar para buscar el patrón en el texto.
    lp=len(Patron) #La variable "lp" se establece en la longitud del patrón. Esto se utiliza para determinar la longitud de las subcadenas del texto que se compararán con el patrón.
    count=0 #La variable "count" se inicializa en cero y se utiliza para contar cuántas veces aparece el patrón en el texto.
    for i in range (x): #El bucle "for" itera a través de cada subcadena de longitud "lp" en el texto y compara esa subcadena con el patrón. 
        if Texto[i:i+lp]==Patron:
              count=count+1 #Si la subcadena es igual al patrón, se incrementa la variable "count".
    return (count) #la función devuelve el número de veces que aparece el patrón en el texto.

patron_contador(Texto,Patron)

2

#### 1.2 ¿Qué patrones tienen funciones biológicas?


Nuestra hipotesis será que aquellos patrones que tienen funciones biologicas son los que aparecen más veces de lo esperado en la secuencia (más adelante veremos como calificar una frecuencia como mayor a lo esperado). 

Necesitamos una función para determinar la frecuencia de un patrón cualquiera, del cual no sabemos de antemano ni su composición ni el número de letras. Por ejemplo, 

* en la secuencia ACA**ACTAT**GCAT**ACTAT**CGGGA**ACTAT**CCT, el patrón de 5 letras **ACTAT** es el más frecuente, apareciendo 3 veces. 
* Por otro lado, en la secuencia CG**ATATA**TCC**ATA**G, el patrón de 3 letras **ATA** es el más frecuente, apareciendo 3 veces.

Un ejemplo más biologico, el siguiente es una secuencia de *Vibrio cholerae*


```
atcaatgatcaacgtaagcttctaagcatgatcaaggtgctcacacagtttatccacaac
ctgagtggatgacatcaagataggtcgttgtatctccttcctctcgtactctcatgacca
cggaaagatgatcaagagaggatgatttcttggccatatcgcaatgaatacttgtgactt
gtgcttccaattgacatcttcagcgccatattgcgctggccaaggtgacggagcgggatt
acgaaagcatgatcatggctgttgttctgtttatcttgttttgactgagacttgttagga
tagacggtttttcatcactgactagccaaagccttactctgcctgacatcgaccgtaaat
tgataatgaatttacatgcttccgcgacgatttacctcttgatcatcgatccgattgaag
atcttcaattgttaattctcttgcctcgactcatagccatgatgagctcttgatcatgtt
tccttaaccctctattttttacggaagaatgatcaagctgctgctcttgatcatcgtttc
```

cuyos patrones más frecuentes son los siguientes:

<img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/table.png" alt="Drawing" style="width: 700px;"/>



Para lograr esto, dado un Texto (así llamaremos también a las secuencias) en el cual queremos buscar un patron de largo k, podemos crear una lista llamada Count de tamaño |Texto| - k (es el número de sublistas de tamaño k en el Texto), en cuya coordenada i guardamos el número de veces que se repite el patrón ubicado en Texto[i:(i+k)].

Por ejemplo, dado Texto="ACTGACTCCCACCCC" y k=3, la lista Count es la siguiente.

```
Texto: ACTGACTCCCACCCC
Count:2111211311133
```

A continuación una implementación de ésta función en Python

In [10]:
#k es igual a el largo de la secuencia a encontrar
import numpy as np

def letras_frecuentes(Texto, k):  #"k" es la longitud de los patrones que se buscarán.
    patrones_frecuentes = set() #La variable "patrones_frecuentes" es un conjunto vacío que se utilizará para almacenar los patrones más frecuentes encontrados.
    Count = [0]*( len(Texto)-k+1 ) #La variable "Count" es una lista de ceros con una longitud igual a la longitud del texto menos la longitud del patrón más uno. Esta lista se utiliza para almacenar el número de veces que aparece cada patrón en el texto.
    for i in range( len(Texto) - k +1 ): 
        Patron = Texto[ i:(i+k)]
        Count[i] = patron_contador(Texto, Patron) # patron_contador cuenta el número de veces 
                                               # que el patron aparece en Texto
    maxCount = np.max(Count) #La variable "maxCount" se establece en el valor máximo de la lista "Count".
    for i in range(len(Texto) - k +1 ): # bucle "for" itera a través de cada subcadena de longitud "k" en el texto y agrega cualquier subcadena que aparezca el mismo número de veces que "maxCount" a la lista de patrones más frecuentes.
        if Count[i] == maxCount:
            patrones_frecuentes.add( Texto[i:(i+k)] )
            
    return( (patrones_frecuentes),maxCount ) # la función devuelve una tupla que contiene el conjunto de patrones más frecuentes y el número máximo de veces que aparece cualquier patrón en el texto.

In [17]:
#letras_frecuentes secuencia mas repetida y veces repetidas
Texto="ACTGACTCCCACCCC"
k=3
letras_frecuentes(Texto, k)

({'CCC'}, 3)

In [16]:
#Count repetición a lo largo de las posiciones
Texto="ACTGACTCCCACCCC"
k=3 #se contarán las repeticiones de secuencias de 3 caracteres.
Count = [0]*( len(Texto)-k+1 ) #La lista "Count" se inicializa con ceros y su longitud es igual a la longitud del texto menos k más uno. Esta lista se utiliza para almacenar el número de veces que se encuentra cada secuencia de 3 caracteres en el texto.

#El bucle "for" itera a través de cada posición en el texto, desde la primera posición hasta la posición final 
#donde se puede encontrar una secuencia de "k" caracteres. En cada iteración, se extrae una subcadena de longitud "k" 
#llamada "Patron" a partir del texto. La función "patron_contador" se utiliza para contar el número de veces que 
#aparece esta subcadena en el texto completo. El resultado se almacena en la lista "Count" en la posición correspondiente 
#a la posición actual del bucle "for".
for i in range( len(Texto) - k +1 ): 
    Patron = Texto[ i:(i+k)]
    Count[i] =patron_contador(Texto, Patron)
Count

[2, 1, 1, 1, 2, 1, 1, 3, 1, 1, 1, 3, 3]

In [18]:
#FrequentPatterns Secuencia mas repetida
patrones_frecuentes = set()
maxCount = np.max(Count)
for i in range(len(Texto) - k +1 ):
     if Count[i] == maxCount:
        patrones_frecuentes.add( Texto[i:(i+k)] )
patrones_frecuentes # imprime el conjunto "patrones_frecuentes", que contiene los patrones más frecuentes encontrados en el texto.

{'CCC'}

In [19]:
#Count secuencias mas repetidas 
maxCount = np.max(Count)
for i in range(len(Texto) - k +1 ):
     if Count[i] == maxCount:
        print( Texto[i:(i+k)] )
Count

CCC
CCC
CCC


[2, 1, 1, 1, 2, 1, 1, 3, 1, 1, 1, 3, 3]

In [18]:
seq="ACTGACTCCCACCCC"
k=3
Count = [0]*(len(Texto)-k+1)
print("al inicio: ", Count )
for i in range( len(Texto) - k +1 ):
    Patron = seq[ i:(i+k)]
    print(i,i+k,Patron, patron_contador(seq, Patron) )
    Count[i] = patron_contador(seq, Patron)
print("al final", Count) # imprime la lista "Count" al final del proceso, que contiene el número de repeticiones de cada secuencia de 3 caracteres a lo largo del texto.

maxCount = np.max(Count)
print("el maximo es:", maxCount ) #imprime el valor máximo encontrado.

patrones_frecuentes = set()
print("al inicio patrones_frecuentes es:", patrones_frecuentes) #imprime el conjunto "patrones_frecuentes" al inicio del proceso, que es un conjunto vacío.
for i in range(len(seq) - k +1 ):
    if Count[i] == maxCount:
        patrones_frecuentes.add( Texto[i:(i+k)] )
print("luego del ciclo for patrones_frecuentes es:", patrones_frecuentes)  # imprime el conjunto "patrones_frecuentes", que contiene los patrones más frecuentes encontrados en el texto.

al inicio:  [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
0 3 ACT 2
1 4 CTG 1
2 5 TGA 1
3 6 GAC 1
4 7 ACT 2
5 8 CTC 1
6 9 TCC 1
7 10 CCC 3
8 11 CCA 1
9 12 CAC 1
10 13 ACC 1
11 14 CCC 3
12 15 CCC 3
al final [2, 1, 1, 1, 2, 1, 1, 3, 1, 1, 1, 3, 3]
el maximo es: 3
al inicio patrones_frecuentes es: set()
luego del ciclo for patrones_frecuentes es: {'CCC'}


### Ejercicio:


Usando la función letras_frecuentes():
- Dada la secuencia: seq="ACAACTATGCATACTATCGGGAACTATCCT"

¿Cual es el patrón más comun de 4 letras, y cuantas veces se repite?


<img src="https://raw.githubusercontent.com/Barbara-GD/Introduccion_a_la_Bioinformatica/main/pythonASCII.png" alt="Drawing" style="width: 700px;"/>

In [19]:
texto="ACAACTATGCATACTATCGGGAACTATCCT"
k=4

letras_frecuentes(texto, k)


({'ACTA', 'CTAT'}, 3)

### 2.1 Introducción a Biopython

In [21]:
#La mayoría de las veces, cuando pensamos en secuencias, tenemos en mente una cadena de letras como ' AGTACACTGGT'.
#Importar la clase Seq de la librería Bio.Seq
from Bio.Seq import Seq
#Crear un objeto Seq llamado mi_seq que contiene la secuencia "AGTACACTGGT". 
secuencia = Seq("AGTACACTGGT")
#Imprimir la secuencia en la consola
print(secuencia)


AGTACACTGGT


#### Analizando secuencia de Orquidea Lady Slipper


<img src="https://raw.githubusercontent.com/Barbara-GD/Introduccion_a_la_Bioinformatica/main/orquidea_Lady_slipper.png" alt="Drawing" style="width: 300px;"/>

#### Abrir archivo FASTA: https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.fasta
y guardarlo en la carpeta donde estamos trabajando actualmente.


In [81]:
#importar el módulo SeqIO de la biblioteca Bio de Python para leer un archivo de secuencias en formato FASTA
from Bio import SeqIO
#La función SeqIO.parse() de la librería Biopython es utilizada para recorrer todas las secuencias presentes 
#en el archivo FASTA y guardar cada una de ellas en un objeto llamado seq_record. 
for seq_record in SeqIO.parse("ls_orchid.fasta.txt", "fasta"):
# Luego, se imprimen en pantalla el identificador de la secuencia (seq_record.id), 
#la secuencia en sí misma (seq_record.seq) y su longitud (len(seq_record)). 
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))


gi|2765658|emb|Z78533.1|CIZ78533
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC')
740
gi|2765657|emb|Z78532.1|CCZ78532
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAG...GGC')
753
gi|2765656|emb|Z78531.1|CFZ78531
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGCAG...TAA')
748
gi|2765655|emb|Z78530.1|CMZ78530
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAAACAACAT...CAT')
744
gi|2765654|emb|Z78529.1|CLZ78529
Seq('ACGGCGAGCTGCCGAAGGACATTGTTGAGACAGCAGAATATACGATTGAGTGAA...AAA')
733
gi|2765652|emb|Z78527.1|CYZ78527
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...CCC')
718
gi|2765651|emb|Z78526.1|CGZ78526
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...TGT')
730
gi|2765650|emb|Z78525.1|CAZ78525
Seq('TGTTGAGATAGCAGAATATACATCGAGTGAATCCGGAGGACCTGTGGTTATTCG...GCA')
704
gi|2765649|emb|Z78524.1|CFZ78524
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGATAGTAG...AGC')
740
gi|2765648|emb|Z78523.1|CHZ78523
Seq('CGTAACCAGGTTTCCGT

##### Una pregunta interesante es: ¿ Si tengo el identificador de una secuencia "x" como podría buscarlo en el archivo FASTA?

In [38]:
#definir archivo e identificador
archivo = "ls_orchid.fasta.txt"  # Reemplaza con la ruta de tu archivo FASTA
identificador_objetivo = "gi|2765658|emb|Z78533.1|CIZ78533"  # Reemplaza con el identificador de la secuencia que deseas extraer

for seq_record in SeqIO.parse(archivo, "fasta"):
    if seq_record.id == identificador_objetivo:
        secuencia = seq_record.seq
        print(f"Secuencia de {identificador_objetivo}: {secuencia}")
        break
else:
    print(f"No se encontró la secuencia con el identificador {identificador_objetivo}")

Secuencia de gi|2765658|emb|Z78533.1|CIZ78533: CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTGAATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGGCCGCCTCGGGAGCGTCCATGGCGGGTTTGAACCTCTAGCCCGGCGCAGTTTGGGCGCCAAGCCATATGAAAGCATCACCGGCGAATGGCATTGTCTTCCCCAAAACCCGGAGCGGCGGCGTGCTGTCGCGTGCCCAATGAATTTTGATGACTCTCGCAAACGGGAATCTTGGCTCTTTGCATCGGATGGAAGGACGCAGCGAAATGCGATAAGTGGTGTGAATTGCAAGATCCCGTGAACCATCGAGTCTTTTGAACGCAAGTTGCGCCCGAGGCCATCAGGCTAAGGGCACGCCTGCTTGGGCGTCGCGCTTCGTCTCTCTCCTGCCAATGCTTGCCCGGCATACAGCCAGGCCGGCGTGGTGCGGATGTGAAAGATTGGCCCCTTGTGCCTAGGTGCGGCGGGTCCAAGAGCTGGTGTTTTGATGGCCCGGAACCCGGCAAGAGGTGGACGGATGCTGGCAGCAGCTGCCGTGCGAATCCCCCATGTTGTCGTGCTTGTCGGACAGGCAGGAGAACCCTTCCGAACCCCAATGGAGGGCGGTTGACCGCCATTCGGATGTGACCCCAGGTCAGGCGGGGGCACCCGCTGAGTTTACGC


#### 2.2 Ejemplo de análisis simple de GenBank

Ahora carguemos el archivo GenBank ls_orchid.gbk en : https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.gbk 
El código para hacer esto es casi idéntico al fragmento usado anteriormente para el archivo FASTA; 
la única diferencia es que cambiamos el nombre del archivo y la cadena de formato:

In [80]:
from Bio import SeqIO
for seq_record in SeqIO.parse("ls_orchid.gbk.txt", "genbank"):
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))

Z78533.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC')
740
Z78532.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAG...GGC')
753
Z78531.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGCAG...TAA')
748
Z78530.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAAACAACAT...CAT')
744
Z78529.1
Seq('ACGGCGAGCTGCCGAAGGACATTGTTGAGACAGCAGAATATACGATTGAGTGAA...AAA')
733
Z78527.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...CCC')
718
Z78526.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...TGT')
730
Z78525.1
Seq('TGTTGAGATAGCAGAATATACATCGAGTGAATCCGGAGGACCTGTGGTTATTCG...GCA')
704
Z78524.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGATAGTAG...AGC')
740
Z78523.1
Seq('CGTAACCAGGTTTCCGTAGGTGAACCTGCGGCAGGATCATTGTTGAGACAGCAG...AAG')
709
Z78522.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGCAG...GAG')
700
Z78521.1
Seq('GTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAGAATATATGATCGAGT...ACC')
726
Z78520.1
Seq('CGTAACAAGGTTTC

In [86]:
#Extracción de datos
record_iterator = SeqIO.parse("ls_orchid.gbk.txt", "genbank")
first_record = next(record_iterator)
print(first_record)

ID: Z78533.1
Name: Z78533
Description: C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
Number of features: 5
/molecule_type=DNA
/topology=linear
/data_file_division=PLN
/date=30-NOV-2006
/accessions=['Z78533']
/sequence_version=1
/gi=2765658
/keywords=['5.8S ribosomal RNA', '5.8S rRNA gene', 'internal transcribed spacer', 'ITS1', 'ITS2']
/source=Cypripedium irapeanum
/organism=Cypripedium irapeanum
/taxonomy=['Eukaryota', 'Viridiplantae', 'Streptophyta', 'Embryophyta', 'Tracheophyta', 'Spermatophyta', 'Magnoliophyta', 'Liliopsida', 'Asparagales', 'Orchidaceae', 'Cypripedioideae', 'Cypripedium']
/references=[Reference(title='Phylogenetics of the slipper orchids (Cypripedioideae: Orchidaceae): nuclear rDNA ITS sequences', ...), Reference(title='Direct Submission', ...)]
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC')


In [24]:
#Las secuencias actúan como cadenas (strings)
from Bio.Seq import Seq
secuencia = Seq("GATCG")
for indice, letra in enumerate(secuencia):
     print("%i %s" % (indice, letra))

print("El largo de la secuencia es de:", len(secuencia))

0 G
1 A
2 T
3 C
4 G
El largo de la secuencia es de: 5


In [25]:
#Puedes acceder a los elementos de la secuencia de la misma manera que para las cadenas 
#Recuerda que Python cuenta desde cero

print(secuencia[0])  # primera letra

print(secuencia[1])  # segunda letra

print(secuencia[-1])  # última letra

G
A
G


El objeto Seq tiene un método .count(), como una cadena. Tenga en cuenta que esto significa que, al igual que una cadena de Python, esto proporciona un recuento que no se superpone :

In [26]:
"GGGGTT".count("GG")


2

In [27]:
Seq("GATTCCGTACTGGAT").count("AT")

2

Para algunos usos biológicos, es posible que desee un recuento superpuesto (es decir, 3 en este ejemplo trivial). Al buscar letras individuales, esto no supone ninguna diferencia:

In [28]:

secuencia = Seq("ACGATCGATGAGGCCTATATAGGATCGAAAATCGCG")
len(secuencia)


36

In [29]:
secuencia.count("G")



10

In [30]:
100 * (secuencia.count("G") + secuencia.count("C")) / len(secuencia)

47.22222222222222

Si bien puede usar el fragmento de código anterior para calcular el % de GC, ten en cuenta que Bio.Seq es un módulo útil ya que tiene varias funciones de GC integradas. Por ejemplo:

In [31]:
from Bio.SeqUtils import gc_fraction
secuencia = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC")
gc_fraction(secuencia)


0.46875

### Ejercicio

Verifica el % de GC en la siguiente secuencia: GATCGATGGTCATGAAATGCATGATACGATAGCATGATACAAGGCCCTTTGCTAGCTACGATCGGGCCTATATAGGATCGAAAATCGC

<img src="https://raw.githubusercontent.com/Barbara-GD/Introduccion_a_la_Bioinformatica/main/pythonASCII.png" alt="Drawing" style="width: 700px;"/>

In [91]:
secuencia = Seq("GATCGATGGTCATGAAATGCATGATACGATAGCATGATACAAGGCCCTTTGCTAGCTACGATCGGGCCTATATAGGATCGAAAATCGC")
gc_fraction(secuencia)

0.45454545454545453

#### Invertir  y cortar secuencias

In [38]:
secuencia = Seq("GATCGATGGGC")
secuencia[::-1]

Seq('CGGGTAGCTAG')

También como una cadena de Python, puedes hacer cortes con un inicio, una parada y una zancada (el tamaño del paso, que por defecto es uno). Por ejemplo, podemos obtener la primera, segunda y tercera posición de los codones de esta secuencia de ADN:

In [36]:
secuencia[1::3]

Seq('AGGC')

#### Concatenar o agregar secuencias
Se pueden concatenar dos objetos Seq sumándolos:



In [39]:
seq1 = Seq("ACGT")
seq2 = Seq("AACCGG")
seq1 + seq2

Seq('ACGTAACCGG')

#### Cambiar MAYUS

In [60]:
dna_seq = Seq("gtacgtACAAGTggtc") 
dna_seq


Seq('gtacgtACAAGTggtc')

In [61]:
dna_seq.upper()



Seq('GTACGTACAAGTGGTC')

In [62]:
dna_seq.lower()


Seq('gtacgtacaagtggtc')

#### Secuencias de nucleótidos y complementos (inversos)
Para secuencias de nucleótidos, puede obtener fácilmente el complemento o el complemento inverso de un Seqobjeto utilizando sus métodos integrados:

In [65]:
secuencia = Seq("CTGATCGATGGGCCTATATAGGATCC")
secuencia.complement()


Seq('GACTAGCTACCCGGATATATCCTAGG')

In [67]:
secuencia.reverse_complement()


Seq('GGATCCTATATAGGCCCATCGATCAG')

#### Comparando secuencias

In [72]:
secuencia1 = Seq("ACGT")
"ACGT" == secuencia1


True

#### Objetos SeqRecord de archivos FASTA

Este ejemplo utiliza un archivo FASTA bastante grande que contiene la secuencia completa de *Yersinia pestis biovar Microtus* str. 91001 plásmido pPCP1, descargado originalmente del NCBI.

In [84]:
from Bio import SeqIO
record = SeqIO.read("NC_005816.fna", "fasta")
record


SeqRecord(seq=Seq('TGTAACGAACGGTGCAATAGTGATCCACACCCAACGCCTGAAATCAGATCCAGG...CTG'), id='gi|45478711|ref|NC_005816.1|', name='gi|45478711|ref|NC_005816.1|', description='gi|45478711|ref|NC_005816.1| Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, complete sequence', dbxrefs=[])

#### Conexión con bases de datos biológicas

Una de las cosas más comunes que hay que hacer en bioinformática es extraer información de bases de datos biológicas. Puede resultar bastante tedioso acceder a estas bases de datos manualmente. Biopython nos ahorra tiempo poniendo a nuestra disposición algunas bases de datos en línea a partir de scripts de Python. Actualmente, Biopython cuenta con código para extraer información de las siguientes bases de datos:

- [Entrez](https://www.ncbi.nlm.nih.gov/Web/Search/entrezfs.html) ([y PubMed](https://pubmed.ncbi.nlm.nih.gov/)) from the NCBI
- [ExPASy](https://www.expasy.org/)
- [SCOP](http://scop.mrc-lmb.cam.ac.uk/) 

#### Análisis de registros de GenBank desde la red

In [87]:
from Bio import Entrez
from Bio import SeqIO

Entrez.email = "A.N.Other@example.com"
with Entrez.efetch(
    db="nucleotide", rettype="fasta", retmode="text", id="6273291"
) as handle:
    seq_record = SeqIO.read(handle, "fasta")
print("%s with %i features" % (seq_record.id, len(seq_record.features)))

AF191665.1 with 0 features


In [89]:
from Bio import Entrez
from Bio import SeqIO

Entrez.email = "A.N.Other@example.com"
with Entrez.efetch(
    db="nucleotide", rettype="gb", retmode="text", id="6273291"
) as handle:
    seq_record = SeqIO.read(handle, "gb")  # using "gb" as an alias for "genbank"
print("%s with %i features" % (seq_record.id, len(seq_record.features)))

AF191665.1 with 3 features


#### Análisis de secuencias SwissProt desde la red

In [90]:
from Bio import ExPASy
from Bio import SeqIO

with ExPASy.get_sprot_raw("O23729") as handle:
    seq_record = SeqIO.read(handle, "swiss")
print(seq_record.id)
print(seq_record.name)
print(seq_record.description)
print(repr(seq_record.seq))
print("Length %i" % len(seq_record))
print(seq_record.annotations["keywords"])

O23729
CHS3_BROFI
RecName: Full=Chalcone synthase 3; EC=2.3.1.74; AltName: Full=Naringenin-chalcone synthase 3;
Seq('MAPAMEEIRQAQRAEGPAAVLAIGTSTPPNALYQADYPDYYFRITKSEHLTELK...GAE')
Length 394
['Acyltransferase', 'Flavonoid biosynthesis', 'Transferase']


Documentación: http://biopython.org/DIST/docs/tutorial/Tutorial.html

### Analisis de proteínas con Biopython

<img src="https://raw.githubusercontent.com/Barbara-GD/Introduccion_a_la_Bioinformatica/main/aminoacidos.png" alt="Drawing" style="width: 350px;"/>

In [114]:
import collections
from Bio import SeqIO
from Bio.SeqUtils.ProtParam import ProteinAnalysis

insulina="GIVEQCCTSICSLYLENCGSHLVCGALYLSCGLIYGCHLVCNYALKVCQLN"
analisis=ProteinAnalysis(insulina)

composicion_amino= analisis.get_amino_acids_percent()

print(composicion_amino)

{'A': 0.0392156862745098, 'C': 0.17647058823529413, 'D': 0.0, 'E': 0.0392156862745098, 'F': 0.0, 'G': 0.09803921568627451, 'H': 0.0392156862745098, 'I': 0.058823529411764705, 'K': 0.0196078431372549, 'L': 0.17647058823529413, 'M': 0.0, 'N': 0.058823529411764705, 'P': 0.0, 'Q': 0.0392156862745098, 'R': 0.0, 'S': 0.0784313725490196, 'T': 0.0196078431372549, 'V': 0.0784313725490196, 'W': 0.0, 'Y': 0.0784313725490196}


In [115]:
peso_mol=analisis.molecular_weight()
print("Peso molecular:", peso_mol)

Peso molecular: 5489.479899999999


In [116]:
len(insulina)

51

Contenido de estructuras secundarias

In [121]:
contenido_helices=analisis.secondary_structure_fraction()[0]
contenido_laminas=analisis.secondary_structure_fraction()[1]

print("contenido de alfa-helices:", contenido_helices)
print("contenido de laminas-beta:", contenido_laminas)

contenido de alfa-helices: 0.3921568627450981
contenido de laminas-beta: 0.23529411764705882


<img src="https://raw.githubusercontent.com/Barbara-GD/Introduccion_a_la_Bioinformatica/main/pythonASCII.png" alt="Drawing" style="width: 700px;"/>

#### Desafío:

Dentro de un centro de investigación, se quiere analizar la posibilidad de modificación genética a través de la herramienta CrisprCas9. Sin embargo se ha borrado del vial el nombre de la enzima. Para esto contamos con 6 primers de los cuales solo uno corresponde a la enzima CrisprCas9.

Formula un programa y encuentra el nombre de la enzima desconocida.


In [23]:
with open("SEQ.txt") as archivo:
    seq=archivo.read()
    
seq

'gagggcctatttcccatgattccttcatatttgcatatacgatacaaggctgttagagagataattggaa\nttaatttgactgtaaacacaaagatattagtacaaaatacgtgacgtagaaagtaataatttcttgggta\ngtttgcagttttaaaattatgttttaaaatggactatcatatgcttaccgtaacttgaaagtatttcgat\nttcttggctttatatatcttGTGGAAAGGACGAAACACCggGTCTTCgaGAAGACctgttttagagctaG\nAAAtagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgcTTTTTTg\nttttagagctagaaatagcaagttaaaataaggctagtccgtTTTTagcgcgtgcgccaattctgcagac\naaatggctctagaggtacccgttacataacttacggtaaatggcccgcctggctgaccgcccaacgaccc\nccgcccattgacgtcaatagtaacgccaatagggactttccattgacgtcaatgggtggagtatttacgg\ntaaactgcccacttggcagtacatcaagtgtatcatatgccaagtacgccccctattgacgtcaatgacg\ngtaaatggcccgcctggcattGtgcccagtacatgaccttatgggactttcctacttggcagtacatcta\ncgtattagtcatcgctattaccatggtcgaggtgagccccacgttctgcttcactctccccatctccccc\nccctccccacccccaattttgtatttatttattttttaattattttgtgcagcgatgggggcgggggggg\nggggggggcgcgcgccaggcggggcggggcggggcgaggggcggggcggggcgaggcggagaggtgcggc\nggcagccaatcagagcggcgcgctccgaaagtttccttttatggcgaggcggcggcggcggcg

In [24]:
seq_limpia = seq.replace('\n', '')  # Elimina los caracteres "\n"

seq_limpia

'gagggcctatttcccatgattccttcatatttgcatatacgatacaaggctgttagagagataattggaattaatttgactgtaaacacaaagatattagtacaaaatacgtgacgtagaaagtaataatttcttgggtagtttgcagttttaaaattatgttttaaaatggactatcatatgcttaccgtaacttgaaagtatttcgatttcttggctttatatatcttGTGGAAAGGACGAAACACCggGTCTTCgaGAAGACctgttttagagctaGAAAtagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgcTTTTTTgttttagagctagaaatagcaagttaaaataaggctagtccgtTTTTagcgcgtgcgccaattctgcagacaaatggctctagaggtacccgttacataacttacggtaaatggcccgcctggctgaccgcccaacgacccccgcccattgacgtcaatagtaacgccaatagggactttccattgacgtcaatgggtggagtatttacggtaaactgcccacttggcagtacatcaagtgtatcatatgccaagtacgccccctattgacgtcaatgacggtaaatggcccgcctggcattGtgcccagtacatgaccttatgggactttcctacttggcagtacatctacgtattagtcatcgctattaccatggtcgaggtgagccccacgttctgcttcactctccccatctcccccccctccccacccccaattttgtatttatttattttttaattattttgtgcagcgatgggggcggggggggggggggggcgcgcgccaggcggggcggggcggggcgaggggcggggcggggcgaggcggagaggtgcggcggcagccaatcagagcggcgcgctccgaaagtttccttttatggcgaggcggcggcggcggcggccctataaaaagcgaagcgcgcggc

In [94]:
seq=seq_limpia

# Secuencia que estamos buscando
secuencia_buscar = "ggaaaaacgccagcaacgc"


if secuencia_buscar in seq:
    print("La secuencia buscada se encuentra en la secuencia original.")
else:
    print("La secuencia buscada NO se encuentra en la secuencia original.")

La secuencia buscada se encuentra en la secuencia original.


Documentación: http://biopython.org/DIST/docs/tutorial/Tutorial.html