# Bioinformática y Análisis Genómico
# 4º curso Grado en Bioquímica - Mención en Biotecnología
# Curso 2022/2023
## Práctica 2: Introducción a Biopython
### Profesora:Ana Belén Romero
### arlosada@us.es


**Biopython** https://biopython.org/ es un conjunto de herramientas de libre acceso para la biología computacional escritas en Python por un equipo internacional de desarrolladores.

Se trata de un esfuerzo de colaboración distribuido para desarrollar bibliotecas y aplicaciones en Python que satisfagan las necesidades del trabajo actual y futuro en bioinformática. El código fuente está disponible bajo la Licencia de Biopython, que es extremadamente permisiva y compatible con casi todas las licencias del mundo.

En esta práctica se va a aprender a instalar y utilizar Biopython en un entorno de Anaconda https://www.anaconda.com/ 

Lo cual debería ser compatible con los principales Sistemas Operativos, aunque se recomienda la utilización de Linux.

## Instalación de Biopython en un entorno de Anaconda

* Requisitos: Una instalación de *Anaconda*
* Abrir un terminal en Linux o Mac, o bien ejecutar el programa *Anaconda Prompt* en Windows
* Crear un nuevo entorno de Python con Biopython llamado *bioinformatics* mediante el comando:
    * **conda create -n bioinformatics biopython**
* Activar el entorno creado
    * **conda activate bioinformatics**
* Es necesario volver a instalar jupyter para el entorno creado
    * **conda install jupyter**
* Iniciar jupyter
    * **jupyter notebook**

## Importacion de bibiotecas y funciones

El paquete principal de Biopython se llama Bio, conteniendo diferentes subpaquetes con diversa funcionalidad.
Consultad https://biopython.org/wiki/Documentation para más información.

Vamos a importar una serie de subpaquetes de Bio, así comprobaremos si la instalación se ha hecho correctamente.

In [34]:
from Bio import Entrez, Seq, SeqIO

## Descargarse una secuencia

In [5]:
#Antes de acceder a cualquier base de datos nos identificamos: 
Entrez.email = 'arlosada@us.es'
#cambiad mi email por el vuestro

Se usa el paquete Entrez. Este paquete tiene varias funciones asociadas, la que más vamos a usar es "efetch" que sirve para extraer datos de las distintas bases de datos que incluye.

Para usar funciones asociadas a un paquete concreto se sigue la estructura 
"nombreDePaquete"."nombreDeFuncion". Por ejemplo, Entrez.efectch(parámetros de entrada)


In [3]:
# Vamos a buscar una secuencia por Accesion number y obtenerla en formato FASTA
handle = Entrez.efetch(db='nucleotide', id=['NM_002299'], rettype='fasta')  # Lactase gene

#Lo que nos devuelve el paquete Entrez es un objeto de clase "handler", es un
#objeto especifico de varios paquetes y no se puede leer como texto.
#Para que pase a un objeto que puede tratarse como texto, 
#lo cual es necesario para tratarlo como
#secuencia, tenemos que usar la funcion "parse" de SeqIO.
sequences = list(SeqIO.parse(handle, 'fasta')) #lo "traduce" de handler a fasta 

# Recordemos que un FASTA puede tener diversas secuencias si son varios cromosomas
#o plásmidos
for seq in sequences:
    print(seq)
    
#en este caso solo tiene una, si no aparecería más de una 
#descripción y Seq('...')

ID: NM_002299.4
Name: NM_002299.4
Description: NM_002299.4 Homo sapiens lactase (LCT), mRNA
Number of features: 0
Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC')


In [4]:
#Vamos a guardar el FASTA en un fichero en nuestro ordenador con la funcion write
#de SeqIO
SeqIO.write(sequences, "lactase.fasta", "fasta")

1

In [35]:
#Ahora, para leer un fichero que tuvieramos en nuestro ordenador sería:
lactase = list(SeqIO.parse("lactase.fasta", "fasta"))
#usamos list() para que nos lo devuelva en forma de lista

In [7]:
# La variable lactase contiene el FASTA leido, 
#la variable sequences contiene el FASTA descargado (veis que son iguales, porque
#solo nos descargamos una secuencia y era la de la lactasa)
print(lactase)
print(sequences)

[SeqRecord(seq=Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC'), id='NM_002299.4', name='NM_002299.4', description='NM_002299.4 Homo sapiens lactase (LCT), mRNA', dbxrefs=[])]
[SeqRecord(seq=Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC'), id='NM_002299.4', name='NM_002299.4', description='NM_002299.4 Homo sapiens lactase (LCT), mRNA', dbxrefs=[])]


In [36]:
# Las secuencia es un objeto especial de tipo Seq
#con la funcion seq podemos guardar la secuencia por separado
# https://biopython.org/wiki/Seq
lactase_sequence = lactase[0].seq #para quedarnos solo con la secuencia y
                                  #obviar la descripcion y nombre    
print(lactase_sequence)
#si sequences tuviera mas 
#de una sequencia podríamos guardarlas por separado haciendo lactase[1].seq, 
#lactase[2].seq, lactase[3].seq...

AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTAAGTTTTTCATGCTGGGGGTCAGACTGGGAGTCTGATAGAAATTTCATTTCCACCGCTGGTCCTCTAACCAATGACTTGCTGCACAACCTGAGTGGTCTCCTGGGAGACCAGAGTTCTAACTTTGTAGCAGGGGACAAAGACATGTATGTTTGTCACCAGCCACTGCCCACTTTCCTGCCAGAATACTTCAGCAGTCTCCATGCCAGTCAGATCACCCATTATAAGGTATTTCTGTCATGGGCACAGCTCCTCCCAGCAGGAAGCACCCAGAATCCAGACGAGAAAACAGTGCAGTGCTACCGGCGACTCCTCAAGGCCCTCAAGACTGCACGGCTTCAGCCCATGGTCATCCTGCACCACCAGACCCTCCCTGCCAGCACCCTCCGGAGAACCGAAGCCTTTGCTGACCTCTTCGCCGACTATGCCACATTCGCCTTCCACTCCTTCGGGGACCTAGTTGGGATCTGGTTCACCTTCAGTGACTTGGAGGAAGTGATCAAGGAGCTTCCCCACCAGGAATCAAGAGCGTCACAACTCCAGACCCTCAGTGATGCCCACAGAAAAGCCTATGAGATTTACCACGAAAGCTATGCTTTTCAGGGCGGAAAACTCTCTGTTGTCCTGCGAGCTGAAGATATCCCGGAGCTCCTGCTAGAACCACCCATATCTGCGCTTGCCCAGGACACGGTCGATTTCCTCTCTCTTGATTTGTCTTATGAATGCCAAAATGAGGCAAGTCTGCGGCAGAAGCTGAGTAAATTGCAGACCATTGAGCCAAAAGTGAAAGTTTTCATCTTCAACCTAAAACTCCCAGACTGCCCCTCCACCATGAAGAACCCAGCCAGTCTGCTCTTCAGCCTTTTTGAAGCCATAAATAAAGACCAAGTGCTCACCATTGGGTTTGATATTAATGAGTTTCTGAGTTGTTCATCAAGTTCCAAGAAAA

In [16]:
#Lo mismo con su descripción.
desc = lactase[0].description
print(desc)

NM_002299.4 Homo sapiens lactase (LCT), mRNA


In [15]:
# Los objetos de clase Seq tienen diversos metodos (funciones asociados a 
#esa clase), por ejemplo:
# Para obtener la hebra inversa complementaria se puede usar el 
#método reverse_complement()
print(lactase_sequence.reverse_complement())

GACAGTCTGCTGTTTTTATTTTCTGGAAAACACAAGATGTGAAGCTAGGGAGAGCTTGCAGAAGGGCAGGAGATGATATTGCAGTCTATGCAATGGAGTTGATTTCTTCTTATAGGAAGGATTTTTACGGTTTTTGCTCCCTTAACAACCCTTAACAACTCTGAAACTTAAAACAGCCCTGTTAAGTTCAATTAAGTGGTTCACAGACCCACTAGACCAGTATCTACACGTTTCCGCAAGAGCTACTTGCTTCTCAAATGCCCAAATGAACTCTGATACTGGAGCAAGATGGAGATATTTCCATTTTACTCAGCAAGTCGAAATCATTCAAGATTAAAGTCATCTCTAACGGTGCAGCAGGACTTTATGGAGAAGTCCAGTATCAGCAGAGTCTAAGACCCTAAGGTGTTTGGTGGCCGGTAAACATAGATGAAGAAACTAGGCCTGCTTCATAGAACTTGAGGTGGTAACTCATCAGAATGAAGACACCGGGCTCAATTCCTGTTGGCTTCGTTGTGTTTTCCCTTGCTTAGAGCGCTTGCAGTACTTGTATGACAGAAATGCCAAGCCACAGACTCCAAGAAGCACAAGAGAAAAGAGAACGTACAAAGCTGTCTGTGCTTCTGTGGTGCCGAGCATTAGCCCCAGGAACTGCACCTCCTCCTGTCTCACGGGGCTGATGGTGGGTCCAGCATCTGGCTGGTGGAGACAAGCGTGAGGCCCTGTAGCGGGGTCAGGGAAGCCATTGCATCGGACCACAGAGGCGTAGAACTTCGCTGATGCTTTGGGGATCCTTGGCAGAGAAGGGTCACTGTAGTTCACAAAATGCAGACCAAATCTCTCTGAAAAGCCTGTGGCCCACTCAAAATTGTCCATCGCACTCCAAACTGTGTATCCTCGAAGGTCCACCTTGTCCTGCACAGCTTTGAGGGCCTCATTGATGTAAGTCCGAAGGTAGTAGATCCTTGCAGTGTCATTGAGGTCTGTTTCTTCCCGCTGG

In [16]:
#Para la longitud de la secuencia no hay ningun método especial
#porque funciona la funcion len como con otras clases de objetos
print(len(lactase_sequence))

6273


In [17]:
# También funcionan los corchetes para acceder a partes de la secuencia como
#hacíamos con cadenas de carácteres.
lactase_sequence[0:3]

Seq('AAC')

## Ejercicio 1.

Ya sabemos como tratar a los objetos de clase seq, ahora vamos a entrenar definiendo una funcion que calcule el modelo multinomial de una secuencia.

Recordad que este modelo caracterizaba los genomas o secuencias por su contenido en las distintas bases. Crea una funcion que tenga como dato de entrada una secuencia y como dato de salida un diccionario con las bases como clave y su contenido en la secuencia como valor. 

Pista: usa asignaciones aumentadas.

In [52]:
# Cálculo del modelo multinomial
def get_multinomial_model(sequence):
    nucleotides = {'A':0, 'C':0, 'G':0, 'T': 0}
    for n in sequence:
        nucleotides[n] += 1
    for n in nucleotides.keys():
         nucleotides[n] /= len(sequence)
    return(nucleotides)

get_multinomial_model(lactase_sequence)
#{'A': 0.24501833253626654,
# 'C': 0.26988681651522395,
# 'G': 0.25251076040172166,
# 'T': 0.23258409054678783}

{'A': 0.24501833253626654,
 'C': 0.26988681651522395,
 'G': 0.25251076040172166,
 'T': 0.23258409054678783}

In [17]:
#De todas formas, hay un paquete con una funcion para calcular el contenido en GC
#Importamos GC de Bio.SeqUtils, esto es como hacer un library
from Bio.SeqUtils import GC
GC(lactase_sequence)

52.239757691694564

## Ejercicio 2: 

Crear una función que dado un número de acceso de una secuencia se la descargue y la guarde en formato fasta en tu ordenador.


In [24]:
def descarga_seq(accesion_number):
    hdl = Entrez.efetch(db='nucleotide', id=[accesion_number], rettype='fasta')
    recs = list(SeqIO.parse(hdl, 'fasta'))
    SeqIO.write(recs, str(accesion_number) + ".fasta", "fasta")
    print("La sequencia", accesion_number, "se ha guardado en el directorio de trabajo. Para leerla usar: list(SeqIO.parse('sequences.fasta', 'fasta'))")
    return(recs)


## Ejercicio 3:

* Descargar de la NCBI mediante Biopython el genoma del genoma del lamda fago (NC_001416).
* Salvar el genoma en un fichero FASTA
* ¿Cual es la longitud de la secuencia?
* ¿Cual es su modelo multinomial?
* ¿Cual es su contenido en GC?

In [26]:
sequences = descarga_seq("NC_001416")
print(sequences)

La sequencia NC_001416 se ha guardado en el directorio de trabajo. Para leerla usar: list(SeqIO.parse('sequences.fasta', 'fasta'))
[SeqRecord(seq=Seq('GGGCGGCGACCTCGCGGGTTTTCGCTATTTATGAAAATTTTCCGGTTTAAGGCG...ACG'), id='NC_001416.1', name='NC_001416.1', description='NC_001416.1 Enterobacteria phage lambda, complete genome', dbxrefs=[])]


In [23]:
#sequences = list(SeqIO.parse('sequences.fasta', 'fasta'))
#print(sequences)

[SeqRecord(seq=Seq('GGGCGGCGACCTCGCGGGTTTTCGCTATTTATGAAAATTTTCCGGTTTAAGGCG...ACG'), id='NC_001416.1', name='NC_001416.1', description='NC_001416.1 Enterobacteria phage lambda, complete genome', dbxrefs=[])]


In [17]:
hdl = Entrez.efetch(db='nucleotide', id='NC_001416', rettype='fasta')
recs = list(SeqIO.parse(hdl, 'fasta'))

#print de los elementos q tenga
for rec in recs:
    print(rec)
    
#cuantos elementos tiene    
len(recs)


ID: NC_001416.1
Name: NC_001416.1
Description: NC_001416.1 Enterobacteria phage lambda, complete genome
Number of features: 0
Seq('GGGCGGCGACCTCGCGGGTTTTCGCTATTTATGAAAATTTTCCGGTTTAAGGCG...ACG')


1

In [16]:
#lo guardo en fasta
SeqIO.write(recs, "fago.fasta", "fasta")
#lo leo 
fago = list(SeqIO.parse("fago.fasta", "fasta"))

#me quedo solo con la seq
fago_sequence = fago[0].seq
print(fago_sequence)

GGGCGGCGACCTCGCGGGTTTTCGCTATTTATGAAAATTTTCCGGTTTAAGGCGTTTCCGTTCTTCTTCGTCATAACTTAATGTTTTTATTTAAAATACCCTCTGAAAAGAAAGGAAACGACAGGTGCTGAAAGCGAGGCTTTTTGGCCTCTGTCGTTTCCTTTCTCTGTTTTTGTCCGTGGAATGAACAATGGAAGTCAACAAAAAGCAGCTGGCTGACATTTTCGGTGCGAGTATCCGTACCATTCAGAACTGGCAGGAACAGGGAATGCCCGTTCTGCGAGGCGGTGGCAAGGGTAATGAGGTGCTTTATGACTCTGCCGCCGTCATAAAATGGTATGCCGAAAGGGATGCTGAAATTGAGAACGAAAAGCTGCGCCGGGAGGTTGAAGAACTGCGGCAGGCCAGCGAGGCAGATCTCCAGCCAGGAACTATTGAGTACGAACGCCATCGACTTACGCGTGCGCAGGCCGACGCACAGGAACTGAAGAATGCCAGAGACTCCGCTGAAGTGGTGGAAACCGCATTCTGTACTTTCGTGCTGTCGCGGATCGCAGGTGAAATTGCCAGTATTCTCGACGGGCTCCCCCTGTCGGTGCAGCGGCGTTTTCCGGAACTGGAAAACCGACATGTTGATTTCCTGAAACGGGATATCATCAAAGCCATGAACAAAGCAGCCGCGCTGGATGAACTGATACCGGGGTTGCTGAGTGAATATATCGAACAGTCAGGTTAACAGGCTGCGGCATTTTGTCCGCGCCGGGCTTCGCTCACTGTTCAGGCCGGAGCCACAGACCGCCGTTGAATGGGCGGATGCTAATTACTATCTCCCGAAAGAATCCGCATACCAGGAAGGGCGCTGGGAAACACTGCCCTTTCAGCGGGCCATCATGAATGCGATGGGCAGCGACTACATCCGTGAGGTGAATGTGGTGAAGTCTGCCCGTGTCGGTTATTCCAAAATGCTGCTGGGTGTTTATGCCTACTTTATAGAGCATAA

## Ejercicio 4:

* Descargar de la NCBI mediante Biopython el genoma del SARS_Cov_2 (NC_045512).
* Salvar el genoma en un fichero FASTA
* ¿Cual es la longitud de la secuencia?
* ¿Cual es su modelo multinomial?
* ¿Cual es su contenido en GC?

## Ejercicio 5:

* Implementa una función para calcular el contenido local en GC de una secuencia (revisar apuntes de IAB)
* Aplica la función al genoma del lambda fago con una longitud de ventana de 10000 y un desplazamiento de 1000

#### Pseudocodigo para R:
###### Datos de entrada: 
* Un vector que representa una secuencia de DNA (dna.sequence)
* la longitud de la ventana (window.length) 
* el desplazamiento (offset)

###### Paso 1: Inicialización de variables antes del bucle:
* lowest(pos mas baja de la ventana actual)
* highest(pos mas alta de la ventana actual)
* local.GC
* positions
* i

###### Paso 2: Mientras highest <= length(dna.sequence)
* Guardar valor local 
* Guardar posición actual (lowest actual)
* Actualizar ventana
* Actualizar indice i

###### Paso 3: Devolver result una lista con local.GC y positions.



In [42]:
def get_local_GC(seq, window_length, offset):
    #lowest(pos mas baja de la ventana actual)
    lowest = 0
    #highest(pos mas alta de la ventana actual)
    highest = window_length
    #local.GC es un diccionario que tendra content GC y positions
    local_GC = {}
    #positions e i no me han hecho falta
    #Mientras highest <= length(dna.sequence)
    while highest <= len(seq):
        #Guardar valor local en la posicion
        local_GC["GC content in position" + " " + str(lowest)] = GC(seq[lowest:highest])
        #Actualizar ventana
        lowest += offset
        highest += offset
    #devolver mi diccionario 
    return local_GC


In [41]:
get_local_GC(lactase_sequence,500,500)

{'GC content in position 0': 52.4,
 'GC content in position 500': 47.4,
 'GC content in position 1000': 61.6,
 'GC content in position 1500': 59.0,
 'GC content in position 2000': 50.4,
 'GC content in position 2500': 50.4,
 'GC content in position 3000': 53.2,
 'GC content in position 3500': 53.2,
 'GC content in position 4000': 54.0,
 'GC content in position 4500': 53.0,
 'GC content in position 5000': 49.0,
 'GC content in position 5500': 49.4}

In [43]:
d={"Juan": "notable", "Estrella": "sobresaliente"}
d

{'Juan': 'notable', 'Estrella': 'sobresaliente'}

In [44]:
d[400]=0.4

In [45]:
d

{'Juan': 'notable', 'Estrella': 'sobresaliente', 400: 0.4}

## Ejercicio 5:

* Implementa una función para calcular el modelo markoviano de una secuencia (revisar apuntes de IAB). 
* Aplica la función al genoma del lambda fago

In [70]:
n=["A","G","T","C", ""]
An="A".join(n)
print(An)
Gn="G".join(n)
Tn="T".join(n)
Cn="C".join(n)
dimeros_string = An+Gn+Tn+Cn
print(dimeros_string)

dimeros={}
for i in range(0,len(dimeros_string),2):
    dimeros[str(dimeros_string[i:i+2])] = 0
print(dimeros)



AAGATACA
AAGATACAAGGGTGCGATGTTTCTACGCTCCC
{'AA': 0, 'GA': 0, 'TA': 0, 'CA': 0, 'AG': 0, 'GG': 0, 'TG': 0, 'CG': 0, 'AT': 0, 'GT': 0, 'TT': 0, 'CT': 0, 'AC': 0, 'GC': 0, 'TC': 0, 'CC': 0}


In [66]:
def count2(seq):
    #creo una string con todos los dimeros posibles
    n=["A","G","T","C",""]
    An="A".join(n)
    Gn="G".join(n)
    Tn="T".join(n)
    Cn="C".join(n)
    dimeros_string = An+Gn+Tn+Cn
    print(dimeros_string)
    #uso cada dimero de la string como clave en un dic
    dimeros={}
    for i in range(0,len(dimeros_string),2):
        dimeros[str(dimeros_string[i:i+2])] = 0
    #uso el dic para contar    
    for i in range(0,len(seq)-1):
        parn = seq[i] + seq[i+1]
        if parn in dimeros:
            dimeros[parn] += 1
    return (dimeros)

In [67]:
count2("AAGCTGTCAGT")

AAGATACAAGGGTGCGATGTTTCTACGCTCCC


{'AA': 1,
 'GA': 0,
 'TA': 0,
 'CA': 1,
 'AG': 2,
 'GG': 0,
 'TG': 1,
 'CG': 0,
 'AT': 0,
 'GT': 2,
 'TT': 0,
 'CT': 1,
 'AC': 0,
 'GC': 1,
 'TC': 1,
 'CC': 0}

In [37]:
dim_lactase = count2(lactase_sequence)
print(dim_lactase)

{'AA': 353, 'GA': 457, 'TA': 195, 'CA': 533, 'AG': 484, 'GG': 452, 'TG': 483, 'CG': 168, 'AT': 316, 'GT': 272, 'TT': 376, 'CT': 498, 'AC': 387, 'GC': 406, 'TC': 407, 'CC': 495}


In [64]:
def get_transition_matrix(dim_count):
    #recorro de 4 en 4 mi dic
    for i in range(0,len(dim_count),4):
        suma=0
        #preparo las claves y num como listas para poder 
        #subdividirlas de 4 en 4
        lista_val=list(dim_count.values())
        lista_keys=list(dim_count.keys())
        #hago el sumatorio de los primeros 4 dim
        for num in lista_val[i:i+4]:
            suma+=num
        #Divido esas 4 primeras claves por ese sum
        for dim in lista_keys[i:i+4]:
            dim_count[dim]=dim_count[dim]/suma
    return(dim_count)

In [63]:
get_transition_matrix(dim_lactase)

{'AA': 0.2291666666666681,
 'GA': 0.29752604166666513,
 'TA': 0.12695312499999936,
 'CA': 0.34635416666666746,
 'AG': 0.30429292929293206,
 'GG': 0.28535353535353314,
 'TG': 0.3042929292929295,
 'CG': 0.10606060606060526,
 'AT': 0.21658670322138268,
 'GT': 0.1850582590815667,
 'TT': 0.257710760795063,
 'CT': 0.3406442769019876,
 'AC': 0.2285883047844053,
 'GC': 0.23922031896042653,
 'TC': 0.23981098641464982,
 'CC': 0.2923803898405184}

In [65]:
def get_markovian_model(seq):
    dim_count = count2(seq)
    get_transition_matrix(dim_count)
    return get_multinomial_model(seq), dim_count
     
get_markovian_model(lactase_sequence)

({'A': 0.24501833253626654,
  'C': 0.26988681651522395,
  'G': 0.25251076040172166,
  'T': 0.23258409054678783},
 {'AA': 0.22916666666666669,
  'GA': 0.29752604166666663,
  'TA': 0.126953125,
  'CA': 0.34635416666666674,
  'AG': 0.30429292929292934,
  'GG': 0.28535353535353536,
  'TG': 0.30429292929292934,
  'CG': 0.10606060606060608,
  'AT': 0.21658670322138449,
  'GT': 0.1850582590815627,
  'TT': 0.2577107607950651,
  'CT': 0.3406442769019877,
  'AC': 0.22858830478440642,
  'GC': 0.2392203189604253,
  'TC': 0.2398109864146486,
  'CC': 0.29238038984051984})