# Bioinformática y Análisis Genómico
# 4º curso Grado en Bioquímica - Mención en Biotecnología
# Curso 2023/2024
## Práctica 2: Introducción a Biopython



**Biopython** https://biopython.org/ es un conjunto de herramientas de libre acceso para la biología computacional escritas en Python por un equipo internacional de desarrolladores.

Se trata de un esfuerzo de colaboración distribuido para desarrollar bibliotecas y aplicaciones en Python que satisfagan las necesidades del trabajo actual y futuro en bioinformática.

En esta práctica se va a aprender a instalar y utilizar Biopython en un entorno de Anaconda.


## Instalación de Biopython en un entorno de Anaconda
Debemos instalarnos biopython para poder acceder a los distintos paquetes (librerías) que ofrece. Al igual que antes de instalarnos cualquier paquete de bioconductor en R debíamos instalarnos el paquete general de Bioconductor.

* Requisitos: Una instalación de *Anaconda* (Ya lo tenemos)
* Abrir un terminal en Linux o Mac, o bien ejecutar el programa *Anaconda Prompt* en Windows
* Crear un nuevo entorno de Python con Biopython llamado *bioinformatics* mediante el comando:
    * **conda create -n bioinformatics biopython**
* Activar el entorno creado
    * **conda activate bioinformatics**
* Es necesario volver a instalar jupyter para el entorno creado
    * **conda install jupyter**
* Iniciar jupyter
    * **jupyter notebook**

## Importacion de bibiotecas y funciones

El paquete principal de Biopython se llama Bio, conteniendo diferentes subpaquetes con diversa funcionalidad.
Consultad https://biopython.org/wiki/Documentation para más información.

Vamos a importar una serie de subpaquetes de Bio, así comprobaremos si la instalación se ha hecho correctamente.

In [1]:
from Bio import Entrez, Seq, SeqIO

## seq da muchas secuencias
## seq IO para trabajar con fasta y pasasrlo a otro archivo.

## Interacción con Bases de Datos

Una de las facilidades que aporta este paquete es que podemos interaccionar con bases de datos como el NCBI. Por ejemplo, podemos acceder a una secuencia subida al NCBI desde aquí. Para ello usaremos la librería *Entrez*.



Para usar cualquier función de una librería siempre se sigue la siguiente estructura: librería.función(argumentos). Entrez es la librería a la que queremos acceder, lo que viene después del punto es la funcion.

Con la librería *Entrez* se crean objetos de clase handle. Son objetos que no se pueden imprimir por pantalla como texto, pues son literalmente "wrappers", es decir, agrupan mucha información de distinta índole. Se selecciona qué hacer con los handlers de Entrez dependiendo de la información que quieras extraer de ellos.
Para extraer la información que tengan en texto plano se usa .read

In [2]:
Entrez.email = 'lucrodram1@alum.us.es'

# Estas lineas nos dan un listado de bases de datos disponibles

handle = Entrez.einfo() #solo informativo para recordar handle
bases_datos = Entrez.read(handle)
print(bases_datos)

##Paquete Entrez: se usa con el nomnre del paquete.funcion(argumento), devuelve objeto HANDLE (da mucha información), del que 
# a traves de funciones podemos ir sacando los datos que queramos (.sequence, .description...)
## funciones: .email, .efetch

## cada vez que usemos paquete entrez hay que escribir el correo para tener un regristro de quien entra en la base de datos de
# forma remota. 

{'DbList': ['pubmed', 'protein', 'nuccore', 'ipg', 'nucleotide', 'structure', 'genome', 'annotinfo', 'assembly', 'bioproject', 'biosample', 'blastdbinfo', 'books', 'cdd', 'clinvar', 'gap', 'gapplus', 'grasp', 'dbvar', 'gene', 'gds', 'geoprofiles', 'homologene', 'medgen', 'mesh', 'nlmcatalog', 'omim', 'orgtrack', 'pmc', 'popset', 'proteinclusters', 'pcassay', 'protfam', 'pccompound', 'pcsubstance', 'seqannot', 'snp', 'sra', 'taxonomy', 'biocollections', 'gtr']}


Vamos a buscar una secuencia por Accesion number y obtenerla en formato FASTA.
*.efetch* es la funcion de Entrez para buscar.

In [3]:
hdl = Entrez.efetch(db='nucleotide', id=['NM_002299'], rettype='fasta')  # Lactase gene
## .efectch sirve para coger base de datos. argumentos son: database (db), id (accesion number), se obtiene handle que 
##incluye el formato fasta pero no devuleve solo el arhivo en dicho formato. 

#De nuevo la información está en forma de handle.
#Se traduce a fasta usando la librería SeqIO, su función .parse

##seqIO, con funcion .parse, permite extraer informacion del handle (en este caso el FASTA).
##list para forzar a que se forme en una lista.
sequencias = list(SeqIO.parse(hdl, 'fasta'))

# Recordemos que un FASTA puede tener diversas secuencias (separado en crosomas, CDSs, etc.)
#Aunque en este caso solo hay una
for sequencia in sequencias:
    print(sequencia)

ID: NM_002299.4
Name: NM_002299.4
Description: NM_002299.4 Homo sapiens lactase (LCT), mRNA
Number of features: 0
Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC')


In [4]:
#Vamos a salvar el FASTA en un fichero
SeqIO.write(sequencias, "lactase.fasta", "fasta")

1

In [5]:
#Igualmente, podemos leer un fichero
lactase = list(SeqIO.parse("lactase.fasta", "fasta"))

In [6]:
# La variable lactase contiene el FASTA leido, la variable sequencias contiene el FASTA descargado (son iguales)
##para comprobarlo lo imprimimos por pantalla
print(lactase)
print(sequencias)

[SeqRecord(seq=Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC'), id='NM_002299.4', name='NM_002299.4', description='NM_002299.4 Homo sapiens lactase (LCT), mRNA', dbxrefs=[])]
[SeqRecord(seq=Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC'), id='NM_002299.4', name='NM_002299.4', description='NM_002299.4 Homo sapiens lactase (LCT), mRNA', dbxrefs=[])]


In [7]:
#Entonces, para trabajar con la sequencia de la lactasa directamente partiríamos del objeto creado por SeqIO
#y usaríamos sobre él el método .seq: lo transforma en objeto seq
lactase_sequence = lactase[0].seq  ##me guardo la sequencia del primer elemento de lactase, como solo es uno obtenemos la secuencia del unico elemento que hay en la lista. 

#ahora, lactase_sequence es un objeto especial de clase Seq
# https://biopython.org/wiki/Seq
print(lactase_sequence)

AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTAAGTTTTTCATGCTGGGGGTCAGACTGGGAGTCTGATAGAAATTTCATTTCCACCGCTGGTCCTCTAACCAATGACTTGCTGCACAACCTGAGTGGTCTCCTGGGAGACCAGAGTTCTAACTTTGTAGCAGGGGACAAAGACATGTATGTTTGTCACCAGCCACTGCCCACTTTCCTGCCAGAATACTTCAGCAGTCTCCATGCCAGTCAGATCACCCATTATAAGGTATTTCTGTCATGGGCACAGCTCCTCCCAGCAGGAAGCACCCAGAATCCAGACGAGAAAACAGTGCAGTGCTACCGGCGACTCCTCAAGGCCCTCAAGACTGCACGGCTTCAGCCCATGGTCATCCTGCACCACCAGACCCTCCCTGCCAGCACCCTCCGGAGAACCGAAGCCTTTGCTGACCTCTTCGCCGACTATGCCACATTCGCCTTCCACTCCTTCGGGGACCTAGTTGGGATCTGGTTCACCTTCAGTGACTTGGAGGAAGTGATCAAGGAGCTTCCCCACCAGGAATCAAGAGCGTCACAACTCCAGACCCTCAGTGATGCCCACAGAAAAGCCTATGAGATTTACCACGAAAGCTATGCTTTTCAGGGCGGAAAACTCTCTGTTGTCCTGCGAGCTGAAGATATCCCGGAGCTCCTGCTAGAACCACCCATATCTGCGCTTGCCCAGGACACGGTCGATTTCCTCTCTCTTGATTTGTCTTATGAATGCCAAAATGAGGCAAGTCTGCGGCAGAAGCTGAGTAAATTGCAGACCATTGAGCCAAAAGTGAAAGTTTTCATCTTCAACCTAAAACTCCCAGACTGCCCCTCCACCATGAAGAACCCAGCCAGTCTGCTCTTCAGCCTTTTTGAAGCCATAAATAAAGACCAAGTGCTCACCATTGGGTTTGATATTAATGAGTTTCTGAGTTGTTCATCAAGTTCCAAGAAAA

In [8]:
# La clase Seq tiene diversos metodos, por ejemplo:
# Para obtener la hebra inversa complementaria se puede usar el metodo reverse_complement()
print(lactase_sequence.reverse_complement())

##podemos generar directamente la secuencia complementaria

GACAGTCTGCTGTTTTTATTTTCTGGAAAACACAAGATGTGAAGCTAGGGAGAGCTTGCAGAAGGGCAGGAGATGATATTGCAGTCTATGCAATGGAGTTGATTTCTTCTTATAGGAAGGATTTTTACGGTTTTTGCTCCCTTAACAACCCTTAACAACTCTGAAACTTAAAACAGCCCTGTTAAGTTCAATTAAGTGGTTCACAGACCCACTAGACCAGTATCTACACGTTTCCGCAAGAGCTACTTGCTTCTCAAATGCCCAAATGAACTCTGATACTGGAGCAAGATGGAGATATTTCCATTTTACTCAGCAAGTCGAAATCATTCAAGATTAAAGTCATCTCTAACGGTGCAGCAGGACTTTATGGAGAAGTCCAGTATCAGCAGAGTCTAAGACCCTAAGGTGTTTGGTGGCCGGTAAACATAGATGAAGAAACTAGGCCTGCTTCATAGAACTTGAGGTGGTAACTCATCAGAATGAAGACACCGGGCTCAATTCCTGTTGGCTTCGTTGTGTTTTCCCTTGCTTAGAGCGCTTGCAGTACTTGTATGACAGAAATGCCAAGCCACAGACTCCAAGAAGCACAAGAGAAAAGAGAACGTACAAAGCTGTCTGTGCTTCTGTGGTGCCGAGCATTAGCCCCAGGAACTGCACCTCCTCCTGTCTCACGGGGCTGATGGTGGGTCCAGCATCTGGCTGGTGGAGACAAGCGTGAGGCCCTGTAGCGGGGTCAGGGAAGCCATTGCATCGGACCACAGAGGCGTAGAACTTCGCTGATGCTTTGGGGATCCTTGGCAGAGAAGGGTCACTGTAGTTCACAAAATGCAGACCAAATCTCTCTGAAAAGCCTGTGGCCCACTCAAAATTGTCCATCGCACTCCAAACTGTGTATCCTCGAAGGTCCACCTTGTCCTGCACAGCTTTGAGGGCCTCATTGATGTAAGTCCGAAGGTAGTAGATCCTTGCAGTGTCATTGAGGTCTGTTTCTTCCCGCTGG

In [9]:
#Se parecen a las string, se calcula su longitud con len y se accede a subsecuencias con []
# Longitud de la secuencia
print(len(lactase_sequence))

6273


In [10]:
# Subsecuencia
lactase_sequence[0:3]

Seq('AAC')

In [11]:
#Contenido en GC
##hay que hacer primero library, que se escribe como a continuación: 
from Bio.SeqUtils import GC
GC(lactase_sequence)

52.239757691694564

## Ejercicio 1:


* Descargar de la NCBI mediante Biopython el genoma del lamda fago (NC_001416).
* Salva el genoma en un fichero FASTA

In [1]:
handle_lamda = Entrez.efetch(db='nucleotide', id=['NC_001416'], rettype='fasta')
genoma_lamda = list(SeqIO.parse(handle_lamda, 'fasta'))
secuencias_lamda = genoma_lamda[0].seq
print(secuencias_lamda)

NameError: name 'Entrez' is not defined

* ¿Cual es la longitud de la secuencia?

In [13]:
a = secuencias_lamda.count("A")
print(a)

12334



* Crea una función llamada *get_multinomial_model* que calcule el modelo multinomial

In [14]:
def get_multinomial_model(sequence):
    mm={'A':0, 'C':0, 'G':0, 'T':0}
    for n in sequence:
        mm[n] += 1
    for n in mm:
        mm[n] /= len(sequence)
    return(mm)

##opcion 2 con count

def get_multinomial_model2(sequence):
    A= sequence.count("A")
    C= sequence.count("C")
    T= sequence.count("T")
    G= sequence.count("G")
    
    total=A+C+T+G
    modelo=[A/total, C/total, G/total, T/total]
    print(modelo)


In [15]:
get_multinomial_model(lactase_sequence)

{'A': 0.24501833253626654,
 'C': 0.26988681651522395,
 'G': 0.25251076040172166,
 'T': 0.23258409054678783}

* ¿Cual es su modelo multinomial?
* ¿Cual es su contenido en GC?

In [16]:
get_multinomial_model(secuencias_lamda)

{'A': 0.2542987918023999,
 'C': 0.23425838109768668,
 'G': 0.2643189971547565,
 'T': 0.24712382994515691}

In [17]:
GC(secuencias_lamda)

49.85773782524432

## Ejercicio 2:

* Implementa una función para calcular el contenido local en GC de una secuencia (revisar apuntes de IAB)
* Aplica la función al genoma del lambda fago con una longitud de ventana de 10000 y un desplazamiento de 1000

In [18]:
# este es el pseudocodigo para R, tenemos que adaptarlo
#Entrada: Un vector que representa una secuencia de DNA (dna.sequence), la longitud de la
# ventana(window.length) y el desplazamiento (offset)
#Paso 1: Inicialización de variables antes del bucle:
# lowest ← 1
# highest ← window.length
# local.GC ← numeric(0)
# positions ← numeric(0)
# i ← 1
#Paso 2: Mientras highest <= length(dna.sequence)
# Guardar valor local: local.GC[i] ← GC(dna.sequence[lowest:highest])
# Guardar posición actual: positions[i] ← lowest
# Actualizar ventana: lowest ← lowest + offsetC
# highest ← highest + offset
# i ← i + 1
#Paso 3: Devolver result una lista con local.GC y positions.

#Devolviendo una lista

def GC_local_content(dna_sequence,window_length, offset):
    lowest = 0
    highest = window_length
    local_GC = []
    while highest < len(dna_sequence):
        local_GC.append( (GC(dna_sequence[lowest:highest]) , lowest ) ) ##con esto se hace una tupla
        lowest += offset
        highest += offset
    return(local_GC)

#Devolviendo un diccionario

def GC_local_content2(dna_sequence,window_length, offset):
    lowest = 0
    highest = window_length
    local_GC = {}
    while highest < len(dna_sequence):
        local_GC[lowest] = GC(dna_sequence[lowest:highest]) ## le añado una clave con la posición(lowest) que tenga como valor el contenido en GC
        lowest += offset
        highest += offset
    return(local_GC)


In [19]:
GC_local_content(secuencias_lamda,10000,1000)

[(56.46, 0),
 (57.1, 1000),
 (57.49, 2000),
 (57.88, 3000),
 (57.78, 4000),
 (57.59, 5000),
 (57.27, 6000),
 (57.61, 7000),
 (57.72, 8000),
 (57.53, 9000),
 (57.31, 10000),
 (57.4, 11000),
 (56.73, 12000),
 (55.07, 13000),
 (52.41, 14000),
 (50.62, 15000),
 (48.64, 16000),
 (46.31, 17000),
 (44.39, 18000),
 (43.51, 19000),
 (42.35, 20000),
 (41.2, 21000),
 (41.07, 22000),
 (41.95, 23000),
 (43.16, 24000),
 (43.13, 25000),
 (44.05, 26000),
 (44.64, 27000),
 (45.04, 28000),
 (45.08, 29000),
 (45.96, 30000),
 (46.22, 31000),
 (45.95, 32000),
 (45.79, 33000),
 (46.12, 34000),
 (47.07, 35000),
 (47.44, 36000),
 (47.94, 37000),
 (47.32, 38000)]

In [20]:
GC_local_content(secuencias_lamda,10000,1000)

[(56.46, 0),
 (57.1, 1000),
 (57.49, 2000),
 (57.88, 3000),
 (57.78, 4000),
 (57.59, 5000),
 (57.27, 6000),
 (57.61, 7000),
 (57.72, 8000),
 (57.53, 9000),
 (57.31, 10000),
 (57.4, 11000),
 (56.73, 12000),
 (55.07, 13000),
 (52.41, 14000),
 (50.62, 15000),
 (48.64, 16000),
 (46.31, 17000),
 (44.39, 18000),
 (43.51, 19000),
 (42.35, 20000),
 (41.2, 21000),
 (41.07, 22000),
 (41.95, 23000),
 (43.16, 24000),
 (43.13, 25000),
 (44.05, 26000),
 (44.64, 27000),
 (45.04, 28000),
 (45.08, 29000),
 (45.96, 30000),
 (46.22, 31000),
 (45.95, 32000),
 (45.79, 33000),
 (46.12, 34000),
 (47.07, 35000),
 (47.44, 36000),
 (47.94, 37000),
 (47.32, 38000)]

## Ejercicio 5:

* Implementa una función para calcular el modelo markoviano de una secuencia (revisar apuntes de IAB)
* Aplica la función al genoma del lambda fago

In [21]:
def count(dna_sequence):
    n="A","C","G","T"
    dim={}
    
#    for i in n: 
#        for j in n:
#            dim[i,j] = 0
#            for dimero in dim.keys():
#                sum(dimero[0,1]) == k
#                if dimero[k] == dna_sequence[1:3]:
#                   dimero[k] += 1  
#    print(dim)

    for i in n:
        for j in n:
            parejas=[i,j]
            pairs="".join(parejas)
            dim[pairs]=0
            
            for dimero in dim.keys():
                for k in range(0, (len(dna_sequence))+1):
                    if dimero == dna_sequence[k:(k+2)]:
                       dim[dimero] += 1  
    print(dim)


In [82]:
dimeros0=count(secuencias_lamda)
dimeros0

{'AA': 59072, 'AC': 38595, 'AG': 38248, 'AT': 43381, 'CA': 38592, 'CC': 27467, 'CG': 31130, 'CT': 22824, 'GA': 26048, 'GC': 25305, 'GG': 19080, 'GT': 13840, 'TA': 8680, 'TC': 8031, 'TG': 7588, 'TT': 3345}


In [162]:
#solucion anabelen

def count2(seq):
    dimeros={}
    for i in range(0, (len(seq)-1)):
        key = seq[i] + seq[i+1]
        if key in dimeros:
            dimeros[key] += 1
        else:
            dimeros[key] = 1
    return(dimeros)

In [163]:
dimeros=count2(secuencias_lamda)
dimeros

{'GG': 3180,
 'GC': 3615,
 'CG': 3113,
 'GA': 3256,
 'AC': 2573,
 'CC': 2497,
 'CT': 2536,
 'TC': 2677,
 'GT': 2768,
 'TT': 3345,
 'TA': 2170,
 'AT': 3337,
 'TG': 3794,
 'AA': 3692,
 'AG': 2732,
 'CA': 3216}

In [110]:
##INTENTO 1 GUARRO
##def calcula_matriz(dimeros):
##    dim_sort=sorted(dimeros.items())
##    print(dim_sort)
##
##    values = [freq[1] for freq in dim_sort] 
##
##    dim_a = sum(values[:4])
##    dim_c = sum(values[4:8])
##    dim_g = sum(values[8:12])
##    dim_t = sum(values[12:16])
##
##    freq_relat = []
##    for a in values[:4]:
    

In [120]:
## INTENTO 2 MAS PRO
##def calcula_matriz(dimeros):
##    dim_sort=dict(sorted(dimeros.items()))
##    print(dim_sort)
##
##    sum_freq=[]
##    values=list(dim_sort.values())
##    for i in range(0,len(values),4):
##        dim_x=values[i:i+4]
##        print(dim_x)
##        sum_dim_x=sum(dim_sort[values] for values in dim_x)
##        sum_freq.append(sum_dim_x)
##    print(sum_freq)
##


Posibilidades: 
1. Sumatorios
   
   *GENTE
   diccionario ordenado( sum 1:4)
   dim[X] in dimero (guarda "XY")
   
   *ANABELEN
   "ATGC" for para dos letras (i,j): A+ ATCG, C+ATCG...
   (se crean otra vez los dimeros y se buscan entre los existentes en nuestro diccionario).
3. Divisiones
   

In [164]:
##solucion anabelen
def calcula_matriz(dimeros):
    ntps = ["A","C","G","T"]
    ##para cada letra...
    for ntp1 in ntps:
        ##inicializo un sumatorio a 0
        suma_ntp1 = 0
        ##para acumular el conteo que aparece en dimeros
        for ntp2 in ntps: 
            key = ntp1 + ntp2
            #print(key)
            suma_ntp1 += dimeros[key]
            #print(suma_ntp1)
        #Uso ese sumatorio para dividir las freq absolutas
        for ntp2 in ntps:
            #recorro los dimeros de nuevo
            key = ntp1 + ntp2
            dimeros[key] /= suma_ntp1
    return(dimeros)

In [165]:
calcula_matriz(dimeros)

{'GG': 0.24806927217411653,
 'GC': 0.2820032763866136,
 'CG': 0.2739834536173209,
 'GA': 0.25399797176066774,
 'AC': 0.20861034538673584,
 'CC': 0.21976764654110192,
 'CT': 0.22320014082027811,
 'TC': 0.22334390121808778,
 'GT': 0.21592947967860207,
 'TT': 0.27907558818621725,
 'TA': 0.18104455197730684,
 'AT': 0.2705529430841576,
 'TG': 0.3165359586183881,
 'AA': 0.29933517107183394,
 'AG': 0.22150154045727258,
 'CA': 0.28304875902129906}

In [169]:
def get_markovian_model(seq):
    dimeros = count2(seq)
    calcula_matriz(dimeros)
    return (get_markovian_model(seq), dimeros)

In [170]:
get_markovian_model(secuencias_lamda)

KeyboardInterrupt: 