# Bioinformática y Análisis Genómico
# 4º curso Grado en Bioquímica - Mención en Biotecnología
# Curso 2022/2023
## Práctica 2: Introducción a Biopython
### Profesora:Ana Belén Romero
### arlosada@us.es


**Biopython** https://biopython.org/ es un conjunto de herramientas de libre acceso para la biología computacional escritas en Python por un equipo internacional de desarrolladores.

Se trata de un esfuerzo de colaboración distribuido para desarrollar bibliotecas y aplicaciones en Python que satisfagan las necesidades del trabajo actual y futuro en bioinformática. El código fuente está disponible bajo la Licencia de Biopython, que es extremadamente permisiva y compatible con casi todas las licencias del mundo.

En esta práctica se va a aprender a instalar y utilizar Biopython en un entorno de Anaconda https://www.anaconda.com/ 

Lo cual debería ser compatible con los principales Sistemas Operativos, aunque se recomienda la utilización de Linux.

## Instalación de Biopython en un entorno de Anaconda

* Requisitos: Una instalación de *Anaconda*
* Abrir un terminal en Linux o Mac, o bien ejecutar el programa *Anaconda Prompt* en Windows
* Crear un nuevo entorno de Python con Biopython llamado *bioinformatics* mediante el comando:
    * **conda create -n bioinformatics biopython**
* Activar el entorno creado
    * **conda activate bioinformatics**
* Es necesario volver a instalar jupyter para el entorno creado
    * **conda install jupyter**
* Iniciar jupyter
    * **jupyter notebook**

## Importacion de bibiotecas y funciones

El paquete principal de Biopython se llama Bio, conteniendo diferentes subpaquetes con diversa funcionalidad.
Consultad https://biopython.org/wiki/Documentation para más información.

Vamos a importar una serie de subpaquetes de Bio, así comprobaremos si la instalación se ha hecho correctamente.

In [1]:
from Bio import Entrez, Seq, SeqIO

## Descargarse una secuencia

In [5]:
#Antes de acceder a cualquier base de datos nos identificamos: 
Entrez.email = 'arlosada@us.es'
#cambiad mi email por el vuestro

Se usa el paquete Entrez. Este paquete tiene varias funciones asociadas, la que más vamos a usar es "efetch" que sirve para extraer datos de las distintas bases de datos que incluye.

Para usar funciones asociadas a un paquete concreto se sigue la estructura <nombreDePaquete>.<nombreDeFuncion>. Por ejemplo, Entrez.efectch(parámetros de entrada)


In [8]:
# Vamos a buscar una secuencia por Accesion number y obtenerla en formato FASTA
handle = Entrez.efetch(db='nucleotide', id=['NM_002299'], rettype='fasta')  # Lactase gene

#Lo que nos devuelve el paquete Entrez es un objeto de clase "handler", es un
#objeto especifico de varios paquetes y no se puede leer. Para que pase a un
#objeto que puede tratarse como texto, lo cual es necesario para tratarlo como
#secuencia, tenemos que usar la funcion "parse" de SeqIO.
sequences = list(SeqIO.parse(handle, 'fasta')) #lo "traduce" de handler a fasta 
# Recordemos que un FASTA puede tener diversas secuencias si son varios cromosomas
#o plásmidos
for seq in sequences:
    print(seq)
    
#en este caso solo tiene una, si no aparecería más de una 
#descripción y Seq('...')

ID: NM_002299.4
Name: NM_002299.4
Description: NM_002299.4 Homo sapiens lactase (LCT), mRNA
Number of features: 0
Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC')


In [None]:
#Vamos a guardar el FASTA en un fichero en nuestro ordenador con la funcion write
#de SeqIO
SeqIO.write(sequences, "lactase.fasta", "fasta")

In [None]:
#Ahora, para leer un fichero que tuvieramos en nuestro ordenador sería:
lactase = list(SeqIO.parse("lactase.fasta", "fasta"))
#usamos list() para que nos lo devuelva en forma de lista

In [None]:
# La variable lactase contiene el FASTA leido, 
#la variable sequences contiene el FASTA descargado (veis que son iguales, porque
#solo nos descargamos una secuencia y era la de la lactasa)
print(lactase)
print(recs)

In [15]:
# Las secuencia es un objeto especial de tipo Seq
#con la funcion seq podemos guardar la secuencia por separado
# https://biopython.org/wiki/Seq
lactase_sequence = lactase[0].seq #para quedarnos solo con la secuencia y
                                  #obviar la descripcion y nombre    
print(lactase_sequence)
#si sequences tuviera mas 
#de una sequencia podríamos guardarlas por separado haciendo sequences[1].seq, 
#sequences[2].seq, sequences[3].seq...

AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTAAGTTTTTCATGCTGGGGGTCAGACTGGGAGTCTGATAGAAATTTCATTTCCACCGCTGGTCCTCTAACCAATGACTTGCTGCACAACCTGAGTGGTCTCCTGGGAGACCAGAGTTCTAACTTTGTAGCAGGGGACAAAGACATGTATGTTTGTCACCAGCCACTGCCCACTTTCCTGCCAGAATACTTCAGCAGTCTCCATGCCAGTCAGATCACCCATTATAAGGTATTTCTGTCATGGGCACAGCTCCTCCCAGCAGGAAGCACCCAGAATCCAGACGAGAAAACAGTGCAGTGCTACCGGCGACTCCTCAAGGCCCTCAAGACTGCACGGCTTCAGCCCATGGTCATCCTGCACCACCAGACCCTCCCTGCCAGCACCCTCCGGAGAACCGAAGCCTTTGCTGACCTCTTCGCCGACTATGCCACATTCGCCTTCCACTCCTTCGGGGACCTAGTTGGGATCTGGTTCACCTTCAGTGACTTGGAGGAAGTGATCAAGGAGCTTCCCCACCAGGAATCAAGAGCGTCACAACTCCAGACCCTCAGTGATGCCCACAGAAAAGCCTATGAGATTTACCACGAAAGCTATGCTTTTCAGGGCGGAAAACTCTCTGTTGTCCTGCGAGCTGAAGATATCCCGGAGCTCCTGCTAGAACCACCCATATCTGCGCTTGCCCAGGACACGGTCGATTTCCTCTCTCTTGATTTGTCTTATGAATGCCAAAATGAGGCAAGTCTGCGGCAGAAGCTGAGTAAATTGCAGACCATTGAGCCAAAAGTGAAAGTTTTCATCTTCAACCTAAAACTCCCAGACTGCCCCTCCACCATGAAGAACCCAGCCAGTCTGCTCTTCAGCCTTTTTGAAGCCATAAATAAAGACCAAGTGCTCACCATTGGGTTTGATATTAATGAGTTTCTGAGTTGTTCATCAAGTTCCAAGAAAA

In [16]:
#Lo mismo con su descripción.
desc = lactase[0].description
print(desc)

NM_002299.4 Homo sapiens lactase (LCT), mRNA


In [15]:
# Los objetos de clase Seq tienen diversos metodos (funciones asociados a 
#esa clase), por ejemplo:
# Para obtener la hebra inversa complementaria se puede usar el 
#metodo reverse_complement()
print(lactase_sequence.reverse_complement())

GACAGTCTGCTGTTTTTATTTTCTGGAAAACACAAGATGTGAAGCTAGGGAGAGCTTGCAGAAGGGCAGGAGATGATATTGCAGTCTATGCAATGGAGTTGATTTCTTCTTATAGGAAGGATTTTTACGGTTTTTGCTCCCTTAACAACCCTTAACAACTCTGAAACTTAAAACAGCCCTGTTAAGTTCAATTAAGTGGTTCACAGACCCACTAGACCAGTATCTACACGTTTCCGCAAGAGCTACTTGCTTCTCAAATGCCCAAATGAACTCTGATACTGGAGCAAGATGGAGATATTTCCATTTTACTCAGCAAGTCGAAATCATTCAAGATTAAAGTCATCTCTAACGGTGCAGCAGGACTTTATGGAGAAGTCCAGTATCAGCAGAGTCTAAGACCCTAAGGTGTTTGGTGGCCGGTAAACATAGATGAAGAAACTAGGCCTGCTTCATAGAACTTGAGGTGGTAACTCATCAGAATGAAGACACCGGGCTCAATTCCTGTTGGCTTCGTTGTGTTTTCCCTTGCTTAGAGCGCTTGCAGTACTTGTATGACAGAAATGCCAAGCCACAGACTCCAAGAAGCACAAGAGAAAAGAGAACGTACAAAGCTGTCTGTGCTTCTGTGGTGCCGAGCATTAGCCCCAGGAACTGCACCTCCTCCTGTCTCACGGGGCTGATGGTGGGTCCAGCATCTGGCTGGTGGAGACAAGCGTGAGGCCCTGTAGCGGGGTCAGGGAAGCCATTGCATCGGACCACAGAGGCGTAGAACTTCGCTGATGCTTTGGGGATCCTTGGCAGAGAAGGGTCACTGTAGTTCACAAAATGCAGACCAAATCTCTCTGAAAAGCCTGTGGCCCACTCAAAATTGTCCATCGCACTCCAAACTGTGTATCCTCGAAGGTCCACCTTGTCCTGCACAGCTTTGAGGGCCTCATTGATGTAAGTCCGAAGGTAGTAGATCCTTGCAGTGTCATTGAGGTCTGTTTCTTCCCGCTGG

In [16]:
#Para la longitud de la secuencia no hay ningun método especial
#porque funciona la funcion len como con otras clases de objetos
print(len(lactase_sequence))

6273


In [17]:
# También funcionan los corchetes para acceder a partes de la secuencia como
#hacíamos con cadenas de carácteres.
lactase_sequence[0:3]

Seq('AAC')

## Ejercicio 1.

Ya sabemos como tratar a los objetos de clase seq, ahora vamos a entrenar definiendo una funcion que calcule el modelo multinomial de una secuencia.

Recordad que este modelo caracterizaba los genomas por su contenido en las distintas bases. Crea una funcion que tenga como dato de entrada una secuencia y como dato de salida un diccionario con las bases como clave y su contenido en la secuencia como valor. 
Pista: usa asignaciones aumentadas.

In [19]:
# Cálculo del modelo multinomial





#get_multinomial_model(lactase_sequence)
#{'A': 0.24501833253626654,
# 'C': 0.26988681651522395,
# 'G': 0.25251076040172166,
# 'T': 0.23258409054678783}

In [21]:
#De todas formas, hay un paquete con una funcion para calcular el contenido en GC
#Importamos GC de Bio.SeqUtils, esto es como hacer un library
from Bio.SeqUtils import GC
GC(lactase_sequence)

52.239757691694564

## Ejercicio 2:

* Descargar de la NCBI mediante Biopython el genoma del lamda fago (NC_001416).
* Salva el genoma en un fichero FASTA
* ¿Cual es la longitud de la secuencia?
* ¿Cual es su modelo multinomial?
* ¿Cual es su contenido en GC?


In [20]:
def download_sequence(accesion_number):
    hdl = Entrez.efetch(db='nucleotide', id=[accesion_number], rettype='fasta')
    recs = list(SeqIO.parse(hdl, 'fasta'))
    return recs

In [21]:
lambda_phage = download_sequence('NC_001416')
lambda_phage

[SeqRecord(seq=Seq('GGGCGGCGACCTCGCGGGTTTTCGCTATTTATGAAAATTTTCCGGTTTAAGGCG...ACG'), id='NC_001416.1', name='NC_001416.1', description='NC_001416.1 Enterobacteria phage lambda, complete genome', dbxrefs=[])]

In [22]:
SeqIO.write(lambda_phage, "lactase.fasta", "fasta")

1

In [23]:
lambda_phage_seq = lambda_phage[0].seq
len(lambda_phage_seq)

48502

In [24]:
get_multinomial_model(lambda_phage_seq)

{'A': 0.2542987918023999,
 'C': 0.23425838109768668,
 'G': 0.2643189971547565,
 'T': 0.24712382994515691}

In [16]:
GC(lambda_phage_seq)

49.85773782524432

## Ejercicio 2:

* Descargar de la NCBI mediante Biopython el genoma del Haemophilus influenzae (NC_000907).
* Salvar el genoma en un fichero FASTA
* ¿Cual es la longitud de la secuencia?
* ¿Cual es su modelo multinomial?
* ¿Cual es su contenido en GC?

In [25]:
download_sequence('NC_000907')

[SeqRecord(seq=Seq('TATGGCAATTAAAATTGGTATCAATGGTTTTGGTCGTATCGGCCGTATCGTATT...TCT'), id='NC_000907.1', name='NC_000907.1', description='NC_000907.1 Haemophilus influenzae Rd KW20, complete sequence', dbxrefs=[])]

## Ejercicio 3:

* Descargar de la NCBI mediante Biopython el genoma del SARS_Cov_2 (NC_045512).
* Salvar el genoma en un fichero FASTA
* ¿Cual es la longitud de la secuencia?
* ¿Cual es su modelo multinomial?
* ¿Cual es su contenido en GC?

## Ejercicio 4:

* Implementa una función para calcular el contenido local en GC de una secuencia (revisar apuntes de IAB)
* Aplica la función al genoma del lambda fago con una longitud de ventana de 10000 y un desplazamiento de 1000

In [26]:
# este es el pseudocodigo para R, tenemos que adaptarlo
#Entrada: Un vector que representa una secuencia de DNA (dna.sequence), la longitud de la
# ventana(window.length) y el desplazamiento (offset)
#Paso 1: Inicialización de variables antes del bucle:
# lowest ← 1
# highest ← window.length
# local.GC ← numeric(0)
# positions ← numeric(0)
# i ← 1
#Paso 2: Mientras highest <= length(dna.sequence)
# Guardar valor local: local.GC[i] ← GC(dna.sequence[lowest:highest])
# Guardar posición actual: positions[i] ← lowest
# Actualizar ventana: lowest ← lowest + offset
# highest ← highest + offset
# i ← i + 1
#Paso 3: Devolver result una lista con local.GC y positions.


def get_local_GC(seq, window_length, offset):
    lowest = 0
    highest = window_length
    local_GC = []
    while highest < len(seq):
        local_GC.append(  (GC(seq[lowest:highest]),lowest)     )
        lowest += offset
        highest += offset
    return local_GC

def get_local_GC_bis(seq, window_length, offset):
    lowest = 0
    highest = window_length
    local_GC = {}
    while highest < len(seq):
        local_GC[lowest] = GC(seq[lowest:highest])
        lowest += offset
        highest += offset
    return local_GC

In [27]:
get_local_GC(lambda_phage_seq,10000,1000)

[(56.46, 0),
 (57.1, 1000),
 (57.49, 2000),
 (57.88, 3000),
 (57.78, 4000),
 (57.59, 5000),
 (57.27, 6000),
 (57.61, 7000),
 (57.72, 8000),
 (57.53, 9000),
 (57.31, 10000),
 (57.4, 11000),
 (56.73, 12000),
 (55.07, 13000),
 (52.41, 14000),
 (50.62, 15000),
 (48.64, 16000),
 (46.31, 17000),
 (44.39, 18000),
 (43.51, 19000),
 (42.35, 20000),
 (41.2, 21000),
 (41.07, 22000),
 (41.95, 23000),
 (43.16, 24000),
 (43.13, 25000),
 (44.05, 26000),
 (44.64, 27000),
 (45.04, 28000),
 (45.08, 29000),
 (45.96, 30000),
 (46.22, 31000),
 (45.95, 32000),
 (45.79, 33000),
 (46.12, 34000),
 (47.07, 35000),
 (47.44, 36000),
 (47.94, 37000),
 (47.32, 38000)]

In [28]:
get_local_GC_bis(lambda_phage_seq,10000,1000)

{0: 56.46,
 1000: 57.1,
 2000: 57.49,
 3000: 57.88,
 4000: 57.78,
 5000: 57.59,
 6000: 57.27,
 7000: 57.61,
 8000: 57.72,
 9000: 57.53,
 10000: 57.31,
 11000: 57.4,
 12000: 56.73,
 13000: 55.07,
 14000: 52.41,
 15000: 50.62,
 16000: 48.64,
 17000: 46.31,
 18000: 44.39,
 19000: 43.51,
 20000: 42.35,
 21000: 41.2,
 22000: 41.07,
 23000: 41.95,
 24000: 43.16,
 25000: 43.13,
 26000: 44.05,
 27000: 44.64,
 28000: 45.04,
 29000: 45.08,
 30000: 45.96,
 31000: 46.22,
 32000: 45.95,
 33000: 45.79,
 34000: 46.12,
 35000: 47.07,
 36000: 47.44,
 37000: 47.94,
 38000: 47.32}

## Ejercicio 5:

* Implementa una función para calcular el modelo markoviano de una secuencia (revisar apuntes de IAB)
* Aplica la función al genoma del lambda fago

In [65]:


# la funcion count2 cuenta la frecuencia absoluta de dimeros de una secuencia
def count2(seq):
    dimeros = {}
    for i in range(0,len(seq)-1):
        key = seq[i] + seq[i+1]
        if key in dimeros:
            dimeros[key] += 1
        else:
            dimeros[key] = 1
    return (dimeros)


dimeros = count2(lambda_phage_seq)


def get_transition_matrix(dimeros):
    alphabet = ['A','C','G','T']
    for n0 in alphabet:
        suma = 0
        for n1 in alphabet:
            key = n0 + n1
        if key in dimeros:
            suma += dimeros[key]
        for n1 in alphabet:
            key = n0 + n1
            if key in dimeros:
                dimeros[key] /= suma
            else:
                dimeros[key] = 0


def get_markovian_model(seq):
    dimeros = count2(seq)
    get_transition_matrix(dimeros)
    return get_multinomial_model(seq), dimeros
     
get_markovian_model(lambda_phage_seq)

({'A': 0.2542987918023999,
  'C': 0.23425838109768668,
  'G': 0.2643189971547565,
  'T': 0.24712382994515691},
 {'GG': 1.1488439306358382,
  'GC': 1.3059971098265897,
  'CG': 1.2275236593059937,
  'GA': 1.176300578034682,
  'AC': 0.77105184297273,
  'CC': 0.9846214511041009,
  'CT': 1.0,
  'TC': 0.8002989536621824,
  'GT': 1.0,
  'TT': 1.0,
  'TA': 0.648729446935725,
  'AT': 1.0,
  'TG': 1.1342301943198805,
  'AA': 1.1063829787234043,
  'AG': 0.818699430626311,
  'CA': 1.2681388012618298})