# Bioinformática y Análisis Genómico
# 4º curso Grado en Bioquímica - Mención en Biotecnología
# Curso 2022/2023
## Práctica 2: Introducción a Biopython
### Profesora:Ana Belén Romero
### arlosada@us.es


**Biopython** https://biopython.org/ es un conjunto de herramientas de libre acceso para la biología computacional escritas en Python por un equipo internacional de desarrolladores.

Se trata de un esfuerzo de colaboración distribuido para desarrollar bibliotecas y aplicaciones en Python que satisfagan las necesidades del trabajo actual y futuro en bioinformática. El código fuente está disponible bajo la Licencia de Biopython, que es extremadamente permisiva y compatible con casi todas las licencias del mundo.

En esta práctica se va a aprender a instalar y utilizar Biopython en un entorno de Anaconda https://www.anaconda.com/ 

Lo cual debería ser compatible con los principales Sistemas Operativos, aunque se recomienda la utilización de Linux.

## Instalación de Biopython en un entorno de Anaconda

* Requisitos: Una instalación de *Anaconda*
* Abrir un terminal en Linux o Mac, o bien ejecutar el programa *Anaconda Prompt* en Windows
* Crear un nuevo entorno de Python con Biopython llamado *bioinformatics* mediante el comando:
    * **conda create -n bioinformatics biopython**
* Activar el entorno creado
    * **conda activate bioinformatics**
* Es necesario volver a instalar jupyter para el entorno creado
    * **conda install jupyter**
* Iniciar jupyter
    * **jupyter notebook**

## Importacion de bibiotecas y funciones

El paquete principal de Biopython se llama Bio, conteniendo diferentes subpaquetes con diversa funcionalidad.
Consultad https://biopython.org/wiki/Documentation para más información.

Vamos a importar una serie de subpaquetes de Bio, así comprobaremos si la instalación se ha hecho correctamente.

In [7]:
from Bio import Entrez, Seq, SeqIO

## Descargarse una secuencia

In [8]:
#Antes de acceder a cualquier base de datos nos identificamos: 
Entrez.email = 'pablo.sousa@alumnos.colegioaljarafe.es'

Se usa el paquete Entrez. Este paquete tiene varias funciones asociadas, la que más vamos a usar es "efetch" que sirve para extraer datos de las distintas bases de datos que incluye.

Para usar funciones asociadas a un paquete concreto se sigue la estructura 
"nombreDePaquete"."nombreDeFuncion". Por ejemplo, Entrez.efectch(parámetros de entrada)


In [9]:
# Vamos a buscar una secuencia por Accesion number y obtenerla en formato FASTA
handle = Entrez.efetch(db='nucleotide', id=['NM_002299'], rettype='fasta')  # Lactase gene

#Lo que nos devuelve el paquete Entrez es un objeto de clase "handler", es un
#objeto especifico de varios paquetes y no se puede leer como texto.
#Para que pase a un objeto que puede tratarse como texto, 
#lo cual es necesario para tratarlo como
#secuencia, tenemos que usar la funcion "parse" de SeqIO.
sequences = list(SeqIO.parse(handle, 'fasta')) #lo "traduce" de handler a fasta 
# Recordemos que un FASTA puede tener diversas secuencias si son varios cromosomas
#o plásmidos
for seq in sequences:
    print(seq)
    
#en este caso solo tiene una, si no aparecería más de una 
#descripción y Seq('...')

ID: NM_002299.4
Name: NM_002299.4
Description: NM_002299.4 Homo sapiens lactase (LCT), mRNA
Number of features: 0
Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC')


In [10]:
#Vamos a guardar el FASTA en un fichero en nuestro ordenador con la funcion write
#de SeqIO
SeqIO.write(sequences, "lactase.fasta", "fasta")

1

In [11]:
#Ahora, para leer un fichero que tuvieramos en nuestro ordenador sería:
lactase = list(SeqIO.parse("lactase.fasta", "fasta"))
#usamos list() para que nos lo devuelva en forma de lista

In [110]:
# La variable lactase contiene el FASTA leido, 
#la variable sequences contiene el FASTA descargado (veis que son iguales, porque
#solo nos descargamos una secuencia y era la de la lactasa)
print(lactase)
print(sequences)

[SeqRecord(seq=Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC'), id='NM_002299.4', name='NM_002299.4', description='NM_002299.4 Homo sapiens lactase (LCT), mRNA', dbxrefs=[])]
[SeqRecord(seq=Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC'), id='NM_002299.4', name='NM_002299.4', description='NM_002299.4 Homo sapiens lactase (LCT), mRNA', dbxrefs=[])]


In [12]:
# Las secuencia es un objeto especial de tipo Seq
#con la funcion seq podemos guardar la secuencia por separado
# https://biopython.org/wiki/Seq
lactase_sequence = lactase[0].seq #para quedarnos solo con la secuencia y
                                  #obviar la descripcion y nombre    
print(lactase_sequence)
#si sequences tuviera mas 
#de una sequencia podríamos guardarlas por separado haciendo lactase[1].seq, 
#lactase[2].seq, lactase[3].seq...

AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTAAGTTTTTCATGCTGGGGGTCAGACTGGGAGTCTGATAGAAATTTCATTTCCACCGCTGGTCCTCTAACCAATGACTTGCTGCACAACCTGAGTGGTCTCCTGGGAGACCAGAGTTCTAACTTTGTAGCAGGGGACAAAGACATGTATGTTTGTCACCAGCCACTGCCCACTTTCCTGCCAGAATACTTCAGCAGTCTCCATGCCAGTCAGATCACCCATTATAAGGTATTTCTGTCATGGGCACAGCTCCTCCCAGCAGGAAGCACCCAGAATCCAGACGAGAAAACAGTGCAGTGCTACCGGCGACTCCTCAAGGCCCTCAAGACTGCACGGCTTCAGCCCATGGTCATCCTGCACCACCAGACCCTCCCTGCCAGCACCCTCCGGAGAACCGAAGCCTTTGCTGACCTCTTCGCCGACTATGCCACATTCGCCTTCCACTCCTTCGGGGACCTAGTTGGGATCTGGTTCACCTTCAGTGACTTGGAGGAAGTGATCAAGGAGCTTCCCCACCAGGAATCAAGAGCGTCACAACTCCAGACCCTCAGTGATGCCCACAGAAAAGCCTATGAGATTTACCACGAAAGCTATGCTTTTCAGGGCGGAAAACTCTCTGTTGTCCTGCGAGCTGAAGATATCCCGGAGCTCCTGCTAGAACCACCCATATCTGCGCTTGCCCAGGACACGGTCGATTTCCTCTCTCTTGATTTGTCTTATGAATGCCAAAATGAGGCAAGTCTGCGGCAGAAGCTGAGTAAATTGCAGACCATTGAGCCAAAAGTGAAAGTTTTCATCTTCAACCTAAAACTCCCAGACTGCCCCTCCACCATGAAGAACCCAGCCAGTCTGCTCTTCAGCCTTTTTGAAGCCATAAATAAAGACCAAGTGCTCACCATTGGGTTTGATATTAATGAGTTTCTGAGTTGTTCATCAAGTTCCAAGAAAA

In [13]:
#Lo mismo con su descripción.
desc = lactase[0].description
print(desc)

NM_002299.4 Homo sapiens lactase (LCT), mRNA


In [14]:
# Los objetos de clase Seq tienen diversos metodos (funciones asociados a 
#esa clase), por ejemplo:
# Para obtener la hebra inversa complementaria se puede usar el 
#método reverse_complement()
print(lactase_sequence.reverse_complement())

GACAGTCTGCTGTTTTTATTTTCTGGAAAACACAAGATGTGAAGCTAGGGAGAGCTTGCAGAAGGGCAGGAGATGATATTGCAGTCTATGCAATGGAGTTGATTTCTTCTTATAGGAAGGATTTTTACGGTTTTTGCTCCCTTAACAACCCTTAACAACTCTGAAACTTAAAACAGCCCTGTTAAGTTCAATTAAGTGGTTCACAGACCCACTAGACCAGTATCTACACGTTTCCGCAAGAGCTACTTGCTTCTCAAATGCCCAAATGAACTCTGATACTGGAGCAAGATGGAGATATTTCCATTTTACTCAGCAAGTCGAAATCATTCAAGATTAAAGTCATCTCTAACGGTGCAGCAGGACTTTATGGAGAAGTCCAGTATCAGCAGAGTCTAAGACCCTAAGGTGTTTGGTGGCCGGTAAACATAGATGAAGAAACTAGGCCTGCTTCATAGAACTTGAGGTGGTAACTCATCAGAATGAAGACACCGGGCTCAATTCCTGTTGGCTTCGTTGTGTTTTCCCTTGCTTAGAGCGCTTGCAGTACTTGTATGACAGAAATGCCAAGCCACAGACTCCAAGAAGCACAAGAGAAAAGAGAACGTACAAAGCTGTCTGTGCTTCTGTGGTGCCGAGCATTAGCCCCAGGAACTGCACCTCCTCCTGTCTCACGGGGCTGATGGTGGGTCCAGCATCTGGCTGGTGGAGACAAGCGTGAGGCCCTGTAGCGGGGTCAGGGAAGCCATTGCATCGGACCACAGAGGCGTAGAACTTCGCTGATGCTTTGGGGATCCTTGGCAGAGAAGGGTCACTGTAGTTCACAAAATGCAGACCAAATCTCTCTGAAAAGCCTGTGGCCCACTCAAAATTGTCCATCGCACTCCAAACTGTGTATCCTCGAAGGTCCACCTTGTCCTGCACAGCTTTGAGGGCCTCATTGATGTAAGTCCGAAGGTAGTAGATCCTTGCAGTGTCATTGAGGTCTGTTTCTTCCCGCTGG

In [15]:
#Para la longitud de la secuencia no hay ningun método especial
#porque funciona la funcion len como con otras clases de objetos
print(len(lactase_sequence))

6273


In [16]:
# También funcionan los corchetes para acceder a partes de la secuencia como
#hacíamos con cadenas de carácteres.
lactase_sequence[0:3]

Seq('AAC')

## Ejercicio 1.

Ya sabemos como tratar a los objetos de clase seq, ahora vamos a entrenar definiendo una funcion que calcule el modelo multinomial de una secuencia.

Recordad que este modelo caracterizaba los genomas o secuencias por su contenido en las distintas bases. Crea una funcion que tenga como dato de entrada una secuencia y como dato de salida un diccionario con las bases como clave y su contenido en la secuencia como valor. 

Pista: usa asignaciones aumentadas.

In [24]:
# Cálculo del modelo multinomial
def multinomial_model(sequence):
    nucleotides = {"A":0, "C":0, "G":0, "T":0}
    for i in sequence:
        nucleotides[i] += 1 
    for i in nucleotides:
        nucleotides[i] /= len(sequence)
    return(nucleotides)   
    





#get_multinomial_model(lactase_sequence)
#{'A': 0.24501833253626654,
# 'C': 0.26988681651522395,
# 'G': 0.25251076040172166,
# 'T': 0.23258409054678783}

In [42]:
multinomial_model(lactase_sequence)

{'A': 0.24501833253626654,
 'C': 0.26988681651522395,
 'G': 0.25251076040172166,
 'T': 0.23258409054678783}

5

In [41]:
#De todas formas, hay un paquete con una funcion para calcular el contenido en GC
#Importamos GC de Bio.SeqUtils, esto es como hacer un library
from Bio.SeqUtils import GC
GC(lactase_sequence)

52.239757691694564

## Ejercicio 2: 

Crear una función que dado un número de acceso de una secuencia se la descargue y la guarde en formato fasta en tu ordenador.


In [65]:
def descargar_secuencia(accesion_number):
    handle = Entrez.efetch(db='nucleotide', id=[accesion_number], rettype='fasta')
    fasta = list(SeqIO.parse(handle, "fasta"))
    SeqIO.write(fasta, "sequences.fasta", "fasta")
    for seq in fasta:
        print(seq)
    secuencia = fasta[0].seq

In [66]:
descargar_secuencia("NC_001416")

ID: NC_001416.1
Name: NC_001416.1
Description: NC_001416.1 Enterobacteria phage lambda, complete genome
Number of features: 0
Seq('GGGCGGCGACCTCGCGGGTTTTCGCTATTTATGAAAATTTTCCGGTTTAAGGCG...ACG')


## Ejercicio 3:

* Descargar de la NCBI mediante Biopython el genoma del genoma del lamda fago (NC_001416).
* Salvar el genoma en un fichero FASTA
* ¿Cual es la longitud de la secuencia?
* ¿Cual es su modelo multinomial?
* ¿Cual es su contenido en GC?

In [10]:
handle = Entrez.efetch(db='nucleotide', id=['NC_001416'], rettype='fasta')
fago = list(SeqIO.parse(handle, 'fasta'))

In [11]:
for seq in fago:
    print(seq)

ID: NC_001416.1
Name: NC_001416.1
Description: NC_001416.1 Enterobacteria phage lambda, complete genome
Number of features: 0
Seq('GGGCGGCGACCTCGCGGGTTTTCGCTATTTATGAAAATTTTCCGGTTTAAGGCG...ACG')


In [12]:
fago_sequence = fago[0].seq
print(fago_sequence)

GGGCGGCGACCTCGCGGGTTTTCGCTATTTATGAAAATTTTCCGGTTTAAGGCGTTTCCGTTCTTCTTCGTCATAACTTAATGTTTTTATTTAAAATACCCTCTGAAAAGAAAGGAAACGACAGGTGCTGAAAGCGAGGCTTTTTGGCCTCTGTCGTTTCCTTTCTCTGTTTTTGTCCGTGGAATGAACAATGGAAGTCAACAAAAAGCAGCTGGCTGACATTTTCGGTGCGAGTATCCGTACCATTCAGAACTGGCAGGAACAGGGAATGCCCGTTCTGCGAGGCGGTGGCAAGGGTAATGAGGTGCTTTATGACTCTGCCGCCGTCATAAAATGGTATGCCGAAAGGGATGCTGAAATTGAGAACGAAAAGCTGCGCCGGGAGGTTGAAGAACTGCGGCAGGCCAGCGAGGCAGATCTCCAGCCAGGAACTATTGAGTACGAACGCCATCGACTTACGCGTGCGCAGGCCGACGCACAGGAACTGAAGAATGCCAGAGACTCCGCTGAAGTGGTGGAAACCGCATTCTGTACTTTCGTGCTGTCGCGGATCGCAGGTGAAATTGCCAGTATTCTCGACGGGCTCCCCCTGTCGGTGCAGCGGCGTTTTCCGGAACTGGAAAACCGACATGTTGATTTCCTGAAACGGGATATCATCAAAGCCATGAACAAAGCAGCCGCGCTGGATGAACTGATACCGGGGTTGCTGAGTGAATATATCGAACAGTCAGGTTAACAGGCTGCGGCATTTTGTCCGCGCCGGGCTTCGCTCACTGTTCAGGCCGGAGCCACAGACCGCCGTTGAATGGGCGGATGCTAATTACTATCTCCCGAAAGAATCCGCATACCAGGAAGGGCGCTGGGAAACACTGCCCTTTCAGCGGGCCATCATGAATGCGATGGGCAGCGACTACATCCGTGAGGTGAATGTGGTGAAGTCTGCCCGTGTCGGTTATTCCAAAATGCTGCTGGGTGTTTATGCCTACTTTATAGAGCATAA

In [39]:
print(len(fago_sequence))

48502


## Ejercicio 4:

* Descargar de la NCBI mediante Biopython el genoma del SARS_Cov_2 (NC_045512).
* Salvar el genoma en un fichero FASTA
* ¿Cual es la longitud de la secuencia?
* ¿Cual es su modelo multinomial?
* ¿Cual es su contenido en GC?

## Ejercicio 5:

* Implementa una función para calcular el contenido local en GC de una secuencia (revisar apuntes de IAB)
* Aplica la función al genoma del lambda fago con una longitud de ventana de 10000 y un desplazamiento de 1000

#### Pseudocodigo para R:
###### Datos de entrada: 
* Un vector que representa una secuencia de DNA (dna.sequence)
* la longitud de la ventana (window.length) 
* el desplazamiento (offset)

###### Paso 1: Inicialización de variables antes del bucle:
* lowest(pos mas baja de la ventana actual)
* highest(pos mas alta de la ventana actual)
* local.GC
* positions
* i

###### Paso 2: Mientras highest <= length(dna.sequence)
* Guardar valor local 
* Guardar posición actual (lowest actual)
* Actualizar ventana
* Actualizar indice i

###### Paso 3: Devolver result una lista con local.GC y positions.



In [75]:
d={"Juan": "notable", "Estrella":"sobresaliente"}
d
d["Ana"]="suficiente"
d

{'Juan': 'notable', 'Estrella': 'sobresaliente', 'Ana': 'suficiente'}

In [79]:
c={}
c["CG"]=8
c

{'CG': 8}

In [85]:
def get_local_GC(sequence, window_length, offset):
    lowest=1
    highest=window_length
    local_GC={}
    while highest <= len(sequence):
        local_GC["GC in position" + " " + D]=GC(sequence[lowest:highest])
        lowest+=offset
        highest+=offset
    return local_GC

In [86]:
get_local_GC(lactase_sequence,500,500)

{'GC in position 1': 52.50501002004008,
 'GC in position 501': 47.294589178356716,
 'GC in position 1001': 61.523046092184366,
 'GC in position 1501': 59.11823647294589,
 'GC in position 2001': 50.501002004008015,
 'GC in position 2501': 50.300601202404806,
 'GC in position 3001': 53.1062124248497,
 'GC in position 3501': 53.3066132264529,
 'GC in position 4001': 53.90781563126252,
 'GC in position 4501': 52.90581162324649,
 'GC in position 5001': 49.098196392785574,
 'GC in position 5501': 49.498997995991985}

In [34]:
2:5

SyntaxError: illegal target for annotation (4087869534.py, line 1)

## Ejercicio 5:

* Implementa una función para calcular el modelo markoviano de una secuencia (revisar apuntes de IAB). 
* Aplica la función al genoma del lambda fago

In [65]:
def get_markovian_model(sequence):
    



get_markovian_model(lambda_phage_seq)

({'A': 0.2542987918023999,
  'C': 0.23425838109768668,
  'G': 0.2643189971547565,
  'T': 0.24712382994515691},
 {'GG': 1.1488439306358382,
  'GC': 1.3059971098265897,
  'CG': 1.2275236593059937,
  'GA': 1.176300578034682,
  'AC': 0.77105184297273,
  'CC': 0.9846214511041009,
  'CT': 1.0,
  'TC': 0.8002989536621824,
  'GT': 1.0,
  'TT': 1.0,
  'TA': 0.648729446935725,
  'AT': 1.0,
  'TG': 1.1342301943198805,
  'AA': 1.1063829787234043,
  'AG': 0.818699430626311,
  'CA': 1.2681388012618298})

In [51]:
def din_count(sequence):
    din = {"AA":0, "AC":0, "AG":0, "AT":0, 
           "CA":0, "CC":0, "CT":0, "CG":0,
           "TA":0, "TT":0, "TC":0, "TG":0, 
           "GA":0, "GG":0, "GC":0, "GT":0}
    for i in range(0,len(sequence)-1):
        din[sequence[i:(i+2)]] +=1
    ### Ahora hay que dividir
    fila_A=din["AA"]+din["AC"]+din["AT"]+din["AG"]
    fila_C=din["CA"]+din["CC"]+din["CT"]+din["CG"]
    fila_G=din["TA"]+din["TT"]+din["TC"]+din["TG"]
    fila_T=din["GA"]+din["GG"]+din["GC"]+din["GT"]
    
    for i in range(0,len(din),4):
        
        
    return din

In [21]:
def get_transtition_matrix(din_count):
    for i in range(0,len(din_count),4):
        suma=0
        lista_val=list(din_count.values())
        lista_cla=list(din_count.keys())
        for num in lista_val[i:i+4]:
            suma+=num
        for din in lista_cla[i:i+4]:
            din_count[din]=din_count[din]/suma
        return(din_count)


