# Bioinformática y Análisis Genómico
# 4º curso Grado en Bioquímica - Mención en Biotecnología
# Curso 2022/2023
## Práctica 2: Introducción a Biopython
### Profesora:Ana Belén Romero
### arlosada@us.es


**Biopython** https://biopython.org/ es un conjunto de herramientas de libre acceso para la biología computacional escritas en Python por un equipo internacional de desarrolladores.

Se trata de un esfuerzo de colaboración distribuido para desarrollar bibliotecas y aplicaciones en Python que satisfagan las necesidades del trabajo actual y futuro en bioinformática. El código fuente está disponible bajo la Licencia de Biopython, que es extremadamente permisiva y compatible con casi todas las licencias del mundo.

En esta práctica se va a aprender a instalar y utilizar Biopython en un entorno de Anaconda https://www.anaconda.com/ 

Lo cual debería ser compatible con los principales Sistemas Operativos, aunque se recomienda la utilización de Linux.

## Instalación de Biopython en un entorno de Anaconda

* Requisitos: Una instalación de *Anaconda*
* Abrir un terminal en Linux o Mac, o bien ejecutar el programa *Anaconda Prompt* en Windows
* Crear un nuevo entorno de Python con Biopython llamado *bioinformatics* mediante el comando:
    * **conda create -n bioinformatics biopython**
* Activar el entorno creado
    * **conda activate bioinformatics**
* Es necesario volver a instalar jupyter para el entorno creado
    * **conda install jupyter**
* Iniciar jupyter
    * **jupyter notebook**

## Importacion de bibiotecas y funciones

El paquete principal de Biopython se llama Bio, conteniendo diferentes subpaquetes con diversa funcionalidad.
Consultad https://biopython.org/wiki/Documentation para más información.

Vamos a importar una serie de subpaquetes de Bio, así comprobaremos si la instalación se ha hecho correctamente.

In [1]:
from Bio import Entrez, Seq, SeqIO #Paquetes de descarga de secuencias y de tratamiento de secuencias de ADN.

## Descargarse una secuencia

In [2]:
#Antes de acceder a cualquier base de datos nos identificamos: 
Entrez.email = 'rafrubram@alum.us.es'

Se usa el paquete Entrez. Este paquete tiene varias funciones asociadas, la que más vamos a usar es "efetch" que sirve para extraer datos de las distintas bases de datos que incluye.

Para usar funciones asociadas a un paquete concreto se sigue la estructura 
"nombreDePaquete"."nombreDeFuncion". Por ejemplo, Entrez.efectch(parámetros de entrada)


In [8]:
# Vamos a buscar una secuencia por Accesion number y obtenerla en formato FASTA
handle = Entrez.efetch(db='nucleotide', id=['NM_002299'], rettype='fasta')  # Lactase gene

#Lo que nos devuelve el paquete Entrez es un objeto de clase "handler", es un
#objeto especifico de varios paquetes y no se puede leer como texto.
#Para que pase a un objeto que puede tratarse como texto, 
#lo cual es necesario para tratarlo como
#secuencia, tenemos que usar la funcion "parse" de SeqIO.
sequences = list(SeqIO.parse(handle, 'fasta')) #lo "traduce" de handler a fasta 
# Recordemos que un FASTA puede tener diversas secuencias si son varios cromosomas
#o plásmidos

for seq in sequences:
    print(seq)
    
#en este caso solo tiene una, si no aparecería más de una 
#descripción y Seq('...')

ID: NM_002299.4
Name: NM_002299.4
Description: NM_002299.4 Homo sapiens lactase (LCT), mRNA
Number of features: 0
Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC')


In [9]:
#Vamos a guardar el FASTA en un fichero en nuestro ordenador con la funcion write
#de SeqIO
SeqIO.write(sequences, "lactase.fasta", "fasta")

1

In [10]:
#Ahora, para leer un fichero que tuvieramos en nuestro ordenador sería:
lactase = list(SeqIO.parse("lactase.fasta", "fasta"))
#usamos list() para que nos lo devuelva en forma de lista

In [11]:
# La variable lactase contiene el FASTA leido, 
#la variable sequences contiene el FASTA descargado (veis que son iguales, porque
#solo nos descargamos una secuencia y era la de la lactasa)
print(lactase)
print(sequences)

[SeqRecord(seq=Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC'), id='NM_002299.4', name='NM_002299.4', description='NM_002299.4 Homo sapiens lactase (LCT), mRNA', dbxrefs=[])]
[SeqRecord(seq=Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC'), id='NM_002299.4', name='NM_002299.4', description='NM_002299.4 Homo sapiens lactase (LCT), mRNA', dbxrefs=[])]


In [13]:
# Las secuencia es un objeto especial de tipo Seq
#con la funcion seq podemos guardar la secuencia por separado
# https://biopython.org/wiki/Seq
lactase_sequence = lactase[0].seq #para quedarnos solo con la secuencia y
                                  #obviar la descripcion y nombre    
print(lactase_sequence)
#si sequences tuviera mas 
#de una sequencia podríamos guardarlas por separado haciendo lactase[1].seq, 
#lactase[2].seq, lactase[3].seq...

AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTAAGTTTTTCATGCTGGGGGTCAGACTGGGAGTCTGATAGAAATTTCATTTCCACCGCTGGTCCTCTAACCAATGACTTGCTGCACAACCTGAGTGGTCTCCTGGGAGACCAGAGTTCTAACTTTGTAGCAGGGGACAAAGACATGTATGTTTGTCACCAGCCACTGCCCACTTTCCTGCCAGAATACTTCAGCAGTCTCCATGCCAGTCAGATCACCCATTATAAGGTATTTCTGTCATGGGCACAGCTCCTCCCAGCAGGAAGCACCCAGAATCCAGACGAGAAAACAGTGCAGTGCTACCGGCGACTCCTCAAGGCCCTCAAGACTGCACGGCTTCAGCCCATGGTCATCCTGCACCACCAGACCCTCCCTGCCAGCACCCTCCGGAGAACCGAAGCCTTTGCTGACCTCTTCGCCGACTATGCCACATTCGCCTTCCACTCCTTCGGGGACCTAGTTGGGATCTGGTTCACCTTCAGTGACTTGGAGGAAGTGATCAAGGAGCTTCCCCACCAGGAATCAAGAGCGTCACAACTCCAGACCCTCAGTGATGCCCACAGAAAAGCCTATGAGATTTACCACGAAAGCTATGCTTTTCAGGGCGGAAAACTCTCTGTTGTCCTGCGAGCTGAAGATATCCCGGAGCTCCTGCTAGAACCACCCATATCTGCGCTTGCCCAGGACACGGTCGATTTCCTCTCTCTTGATTTGTCTTATGAATGCCAAAATGAGGCAAGTCTGCGGCAGAAGCTGAGTAAATTGCAGACCATTGAGCCAAAAGTGAAAGTTTTCATCTTCAACCTAAAACTCCCAGACTGCCCCTCCACCATGAAGAACCCAGCCAGTCTGCTCTTCAGCCTTTTTGAAGCCATAAATAAAGACCAAGTGCTCACCATTGGGTTTGATATTAATGAGTTTCTGAGTTGTTCATCAAGTTCCAAGAAAA

In [9]:
#Lo mismo con su descripción.
desc = lactase[0].description
print(desc)

NM_002299.4 Homo sapiens lactase (LCT), mRNA


In [10]:
# Los objetos de clase Seq tienen diversos metodos (funciones asociados a 
#esa clase), por ejemplo:
# Para obtener la hebra inversa complementaria se puede usar el 
#método reverse_complement()
print(lactase_sequence.reverse_complement())

GACAGTCTGCTGTTTTTATTTTCTGGAAAACACAAGATGTGAAGCTAGGGAGAGCTTGCAGAAGGGCAGGAGATGATATTGCAGTCTATGCAATGGAGTTGATTTCTTCTTATAGGAAGGATTTTTACGGTTTTTGCTCCCTTAACAACCCTTAACAACTCTGAAACTTAAAACAGCCCTGTTAAGTTCAATTAAGTGGTTCACAGACCCACTAGACCAGTATCTACACGTTTCCGCAAGAGCTACTTGCTTCTCAAATGCCCAAATGAACTCTGATACTGGAGCAAGATGGAGATATTTCCATTTTACTCAGCAAGTCGAAATCATTCAAGATTAAAGTCATCTCTAACGGTGCAGCAGGACTTTATGGAGAAGTCCAGTATCAGCAGAGTCTAAGACCCTAAGGTGTTTGGTGGCCGGTAAACATAGATGAAGAAACTAGGCCTGCTTCATAGAACTTGAGGTGGTAACTCATCAGAATGAAGACACCGGGCTCAATTCCTGTTGGCTTCGTTGTGTTTTCCCTTGCTTAGAGCGCTTGCAGTACTTGTATGACAGAAATGCCAAGCCACAGACTCCAAGAAGCACAAGAGAAAAGAGAACGTACAAAGCTGTCTGTGCTTCTGTGGTGCCGAGCATTAGCCCCAGGAACTGCACCTCCTCCTGTCTCACGGGGCTGATGGTGGGTCCAGCATCTGGCTGGTGGAGACAAGCGTGAGGCCCTGTAGCGGGGTCAGGGAAGCCATTGCATCGGACCACAGAGGCGTAGAACTTCGCTGATGCTTTGGGGATCCTTGGCAGAGAAGGGTCACTGTAGTTCACAAAATGCAGACCAAATCTCTCTGAAAAGCCTGTGGCCCACTCAAAATTGTCCATCGCACTCCAAACTGTGTATCCTCGAAGGTCCACCTTGTCCTGCACAGCTTTGAGGGCCTCATTGATGTAAGTCCGAAGGTAGTAGATCCTTGCAGTGTCATTGAGGTCTGTTTCTTCCCGCTGG

In [16]:
#Para la longitud de la secuencia no hay ningun método especial
#porque funciona la funcion len como con otras clases de objetos
print(len(lactase_sequence))

6273


In [17]:
# También funcionan los corchetes para acceder a partes de la secuencia como
#hacíamos con cadenas de carácteres.
lactase_sequence[0:3]

Seq('AAC')

## Ejercicio 1.

Ya sabemos como tratar a los objetos de clase seq, ahora vamos a entrenar definiendo una funcion que calcule el modelo multinomial de una secuencia.

Recordad que este modelo caracterizaba los genomas o secuencias por su contenido en las distintas bases. Crea una funcion que tenga como dato de entrada una secuencia y como dato de salida un diccionario con las bases como clave y su contenido en la secuencia como valor. 

Pista: usa asignaciones aumentadas.

In [14]:
# Cálculo del modelo multinomial

# Contar las letras de cada secuencia y dividir entre el total

def get_multinomial_model(secuencia):
    nucleotidos="ACGT"
    longitud=len(secuencia)
    diccionario ={"A":0,"C":0,"G":0,"T":0}
    for letra in nucleotidos:
        cont=0
        for i in secuencia:
            if i == letra:
                cont+=1
        diccionario[letra]=cont/longitud
    return(diccionario)

def get_multinomial_model2(sequence):
    nucleotides = {"A":0,"C":0,"G":0,"T":0}
    for n in sequence:
        nucleotides[n] += 1
    for n in nucleotides:
        nucleotides[n] /= len(sequence)
    return(nucleotides)


   # longitud = len(secuencia)
   # return({"A":(secuencia.count("A"))/longitud,
   #         "C":(secuencia.count("C"))/longitud,
   #         "G":(secuencia.count("G"))/longitud,
   #         "T":(secuencia.count("T"))/longitud})

get_multinomial_model(lactase_sequence)

#get_multinomial_model(lactase_sequence)
#{'A': 0.24501833253626654,
# 'C': 0.26988681651522395,
# 'G': 0.25251076040172166,
# 'T': 0.23258409054678783}

{'A': 0.24501833253626654,
 'C': 0.26988681651522395,
 'G': 0.25251076040172166,
 'T': 0.23258409054678783}

6


In [16]:
#De todas formas, hay un paquete con una funcion para calcular el contenido en GC
#Importamos GC de Bio.SeqUtils, esto es como hacer un library
from Bio.SeqUtils import GC
GC(lactase_sequence)

52.239757691694564

## Ejercicio 2: 

Crear una función que dado un número de acceso de una secuencia se la descargue y la guarde en formato fasta en tu ordenador.


In [38]:
def descargar(numerodeacceso):
    handle = Entrez.efetch(db='nucleotide', id=[numerodeacceso], rettype='fasta')
    secuencias = list(SeqIO.parse(handle, 'fasta'))
    SeqIO.write(secuencias, numerodeacceso+".fasta", "fasta")
    return(secuencias)

## Ejercicio 3:

* Descargar de la NCBI mediante Biopython el genoma del genoma del lamda fago (NC_001416).
* Salvar el genoma en un fichero FASTA
* ¿Cual es la longitud de la secuencia?
* ¿Cual es su modelo multinomial?
* ¿Cual es su contenido en GC?

In [31]:
lphandle = Entrez.efetch(db='nucleotide', id=['NC_001416'], rettype='fasta')

lp = list(SeqIO.parse(lphandle, 'fasta'))

SeqIO.write(lp, "lp.fasta", "fasta")

lp_sequence = lp[0].seq ##.description para extraer la descripción

print(lp_sequence)

print(len(lp_sequence))

GGGCGGCGACCTCGCGGGTTTTCGCTATTTATGAAAATTTTCCGGTTTAAGGCGTTTCCGTTCTTCTTCGTCATAACTTAATGTTTTTATTTAAAATACCCTCTGAAAAGAAAGGAAACGACAGGTGCTGAAAGCGAGGCTTTTTGGCCTCTGTCGTTTCCTTTCTCTGTTTTTGTCCGTGGAATGAACAATGGAAGTCAACAAAAAGCAGCTGGCTGACATTTTCGGTGCGAGTATCCGTACCATTCAGAACTGGCAGGAACAGGGAATGCCCGTTCTGCGAGGCGGTGGCAAGGGTAATGAGGTGCTTTATGACTCTGCCGCCGTCATAAAATGGTATGCCGAAAGGGATGCTGAAATTGAGAACGAAAAGCTGCGCCGGGAGGTTGAAGAACTGCGGCAGGCCAGCGAGGCAGATCTCCAGCCAGGAACTATTGAGTACGAACGCCATCGACTTACGCGTGCGCAGGCCGACGCACAGGAACTGAAGAATGCCAGAGACTCCGCTGAAGTGGTGGAAACCGCATTCTGTACTTTCGTGCTGTCGCGGATCGCAGGTGAAATTGCCAGTATTCTCGACGGGCTCCCCCTGTCGGTGCAGCGGCGTTTTCCGGAACTGGAAAACCGACATGTTGATTTCCTGAAACGGGATATCATCAAAGCCATGAACAAAGCAGCCGCGCTGGATGAACTGATACCGGGGTTGCTGAGTGAATATATCGAACAGTCAGGTTAACAGGCTGCGGCATTTTGTCCGCGCCGGGCTTCGCTCACTGTTCAGGCCGGAGCCACAGACCGCCGTTGAATGGGCGGATGCTAATTACTATCTCCCGAAAGAATCCGCATACCAGGAAGGGCGCTGGGAAACACTGCCCTTTCAGCGGGCCATCATGAATGCGATGGGCAGCGACTACATCCGTGAGGTGAATGTGGTGAAGTCTGCCCGTGTCGGTTATTCCAAAATGCTGCTGGGTGTTTATGCCTACTTTATAGAGCATAA

## Ejercicio 4:

* Descargar de la NCBI mediante Biopython el genoma del SARS_Cov_2 (NC_045512).
* Salvar el genoma en un fichero FASTA
* ¿Cual es la longitud de la secuencia?
* ¿Cual es su modelo multinomial?
* ¿Cual es su contenido en GC?

## Ejercicio 5:

* Implementa una función para calcular el contenido local en GC de una secuencia (revisar apuntes de IAB)
* Aplica la función al genoma del lambda fago con una longitud de ventana de 10000 y un desplazamiento de 1000

#### Pseudocodigo para R:
###### Datos de entrada: 
* Un vector que representa una secuencia de DNA (dna.sequence)
* la longitud de la ventana (window.length) 
* el desplazamiento (offset)

###### Paso 1: Inicialización de variables antes del bucle:
* lowest(pos mas baja de la ventana actual)
* highest(pos mas alta de la ventana actual)
* local.GC
* positions
* i

###### Paso 2: Mientras highest <= length(dna.sequence)
* Guardar valor local 
* Guardar posición actual (lowest actual)
* Actualizar ventana
* Actualizar indice i

###### Paso 3: Devolver result una lista con local.GC y positions.



In [53]:
def get_local_GC(dnasequence,windowlength,offset):
    lowest = 0
    highest = windowlength
    localGC = {}
    while highest <= len(dnasequence):
        localGC["GC Content from positions "+str(lowest)+" to "+str(highest)]=GC(dnasequence[lowest:highest])
        lowest += offset
        highest += offset
    return(localGC)

In [55]:
get_local_GC(lactase_sequence,500,500)

{'GC Content from positions 0 to 500': 52.4,
 'GC Content from positions 500 to 1000': 47.4,
 'GC Content from positions 1000 to 1500': 61.6,
 'GC Content from positions 1500 to 2000': 59.0,
 'GC Content from positions 2000 to 2500': 50.4,
 'GC Content from positions 2500 to 3000': 50.4,
 'GC Content from positions 3000 to 3500': 53.2,
 'GC Content from positions 3500 to 4000': 53.2,
 'GC Content from positions 4000 to 4500': 54.0,
 'GC Content from positions 4500 to 5000': 53.0,
 'GC Content from positions 5000 to 5500': 49.0,
 'GC Content from positions 5500 to 6000': 49.4}

## Ejercicio 5:

* Implementa una función para calcular el modelo markoviano de una secuencia (revisar apuntes de IAB). 
* Aplica la función al genoma del lambda fago

In [56]:
# get_markovian_model(lambda_phage_seq)

# Probabilidades iniciales = modelo multinomial
# Matriz de transición. agtcct : ag gt tc cc ct. Luego divido aa ac ag y at entre aa+ac+ag+at
# Tenemos que crear nuestra propia función para count. Hacer un diccionario, parecido a antes.
# Lo que tiene que sumar 1 es AA AC AG AT.

def contar(sequence):
    pairs = {"AA":0,"AC":0,"AG":0,"AT":0,
             "CA":0,"CC":0,"CG":0,"CT":0,
             "GA":0,"GC":0,"GG":0,"GT":0,
             "TA":0,"TC":0,"TG":0,"TT":0}
    for i in range(0,len(sequence)):
        pairs[sequence[i:(i+1)]] ## Sequence i i+1 es p
        
   
   # for n in sequence:
   #     pairs[n] += 1
   # for n in nucleotides:
   #     nucleotides[n] /= len(sequence)
    return(pairs)
    

SyntaxError: cannot assign to function call here. Maybe you meant '==' instead of '='? (3690613663.py, line 2)