# Bioinformática y Análisis Genómico
# 4º curso Grado en Bioquímica - Mención en Biotecnología
# Curso 2023/2024
## Práctica 2: Introducción a Biopython



**Biopython** https://biopython.org/ es un conjunto de herramientas de libre acceso para la biología computacional escritas en Python por un equipo internacional de desarrolladores.

Se trata de un esfuerzo de colaboración distribuido para desarrollar bibliotecas y aplicaciones en Python que satisfagan las necesidades del trabajo actual y futuro en bioinformática.

En esta práctica se va a aprender a instalar y utilizar Biopython en un entorno de Anaconda.


## Instalación de Biopython en un entorno de Anaconda
Debemos instalarnos biopython para poder acceder a los distintos paquetes (librerías) que ofrece. Al igual que antes de instalarnos cualquier paquete de bioconductor en R debíamos instalarnos el paquete general de Bioconductor.

* Requisitos: Una instalación de *Anaconda* (Ya lo tenemos)
* Abrir un terminal en Linux o Mac, o bien ejecutar el programa *Anaconda Prompt* en Windows
* Crear un nuevo entorno de Python con Biopython llamado *bioinformatics* mediante el comando:
    * **conda create -n bioinformatics biopython**
* Activar el entorno creado
    * **conda activate bioinformatics**
* Es necesario volver a instalar jupyter para el entorno creado
    * **conda install jupyter**
* Iniciar jupyter
    * **jupyter notebook**

## Importacion de bibiotecas y funciones

El paquete principal de Biopython se llama Bio, conteniendo diferentes subpaquetes con diversa funcionalidad.
Consultad https://biopython.org/wiki/Documentation para más información.

Vamos a importar una serie de subpaquetes de Bio, así comprobaremos si la instalación se ha hecho correctamente.

In [1]:
from Bio import Entrez, Seq, SeqIO
#Entrez nos permite comunicarnos con bases de datos para descargarnos datos de ahi
#seq a muchas secuencias para usarlas con secuencias
#SeqIO nos permite trabajar con fasta para trabajar con ellos

## Interacción con Bases de Datos

Una de las facilidades que aporta este paquete es que podemos interaccionar con bases de datos como el NCBI. Por ejemplo, podemos acceder a una secuencia subida al NCBI desde aquí. Para ello usaremos la librería *Entrez*.



Para usar cualquier función de una librería siempre se sigue la siguiente estructura: librería.función(argumentos). Entrez es la librería a la que queremos acceder, lo que viene después del punto es la funcion.

Con la librería *Entrez* se crean objetos de clase handle. Son objetos que no se pueden imprimir por pantalla como texto, pues son literalmente "wrappers", es decir, agrupan mucha información de distinta índole. Se selecciona qué hacer con los handlers de Entrez dependiendo de la información que quieras extraer de ellos.
Para extraer la información que tengan en texto plano se usa .read

In [2]:
# Estas lineas nos dan un listado de bases de datos disponibles
#Entrez siempre se usan las funciones entrez.funcion(objetosobreelquehacemoslafuncion)
#Haremos entrez.email y entrez.efetch
#Nos permite acceder a bases de datos remotamente para controlar quien entra te debes identificar, antes de usarlo siempre hay que poner:
Entrez.email='whatdres@gmail.com' 
#Siempre devulve objetods de clase handle, tipos de objetos muy usados en informaticas que son como wrapped, muchas cosas distintas dentro,
#un viaje de info. Del handle con ciertas funciones pj .sequence o .description vamos a poder sacar secuencia, descripcion... del handle. 
#Guardamos con palabra habnde para recordar. 
handle = Entrez.einfo() 
rec = Entrez.read(handle)
print(rec)

#Aquí vemos bases de datos que se incluyen en este paquete, en esta practiva trabajamos con NCBI, simplemente para ver cuales se usan

{'DbList': ['pubmed', 'protein', 'nuccore', 'ipg', 'nucleotide', 'structure', 'genome', 'annotinfo', 'assembly', 'bioproject', 'biosample', 'blastdbinfo', 'books', 'cdd', 'clinvar', 'gap', 'gapplus', 'grasp', 'dbvar', 'gene', 'gds', 'geoprofiles', 'homologene', 'medgen', 'mesh', 'nlmcatalog', 'omim', 'orgtrack', 'pmc', 'popset', 'proteinclusters', 'pcassay', 'protfam', 'pccompound', 'pcsubstance', 'seqannot', 'snp', 'sra', 'taxonomy', 'biocollections', 'gtr']}


Vamos a buscar una secuencia por Accesion number y obtenerla en formato FASTA.
*.efetch* es la funcion de Entrez para buscar.

In [3]:
hdl = Entrez.efetch(db='nucleotide', id=['NM_002299'], rettype='fasta')  # Lactase gene
#Efetch es para buscar datos, sirve ara coger base de datos, siempre es Entrez.efetch(db='basededatos', id=['ID'], rettype='fasta')

#De nuevo la información está en forma de handle.
#Se traduce a fasta usando la librería SeqIO, su función .parse
recs = list(SeqIO.parse(hdl, 'fasta'))

# Recordemos que un FASTA puede tener diversas secuencias (separado en crosomas, CDSs, etc.)
#Aunque en este caso solo hay una
for rec in recs:
    print(rec)

#Impirimos secunecias

ID: NM_002299.4
Name: NM_002299.4
Description: NM_002299.4 Homo sapiens lactase (LCT), mRNA
Number of features: 0
Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC')


In [4]:
SeqIO.write(recs, "lactase.fasta", "fasta")
#Escribimos el recs. 

1

In [5]:
#Igualmente, podemos leer un fichero
#Seqio.parse es para extraer fasta del handle. Como en R lo forzamos para que sea lista con list antes
#forzamos que lo queentre se haga lista
lactase = list(SeqIO.parse("lactase.fasta", "fasta"))

In [6]:
# La variable lactase contiene el FASTA leido, la variable recs contiene el FASTA descargado (son iguales)
print(lactase)
print(recs)

[SeqRecord(seq=Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC'), id='NM_002299.4', name='NM_002299.4', description='NM_002299.4 Homo sapiens lactase (LCT), mRNA', dbxrefs=[])]
[SeqRecord(seq=Seq('AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTA...GTC'), id='NM_002299.4', name='NM_002299.4', description='NM_002299.4 Homo sapiens lactase (LCT), mRNA', dbxrefs=[])]


In [7]:
#Entonces, para trabajar con la sequencia de la lactasa directamente partiríamos del objeto creado por SeqIO
#y usaríamos sobre él el método .seq: lo transforma en objeto seq
lactase_sequence = lactase[0].seq

#ahora, lactase_sequence es un objeto especial de clase Seq
# https://biopython.org/wiki/Seq
print(lactase_sequence)

AACAGTTCCTAGAAAATGGAGCTGTCTTGGCATGTAGTCTTTATTGCCCTGCTAAGTTTTTCATGCTGGGGGTCAGACTGGGAGTCTGATAGAAATTTCATTTCCACCGCTGGTCCTCTAACCAATGACTTGCTGCACAACCTGAGTGGTCTCCTGGGAGACCAGAGTTCTAACTTTGTAGCAGGGGACAAAGACATGTATGTTTGTCACCAGCCACTGCCCACTTTCCTGCCAGAATACTTCAGCAGTCTCCATGCCAGTCAGATCACCCATTATAAGGTATTTCTGTCATGGGCACAGCTCCTCCCAGCAGGAAGCACCCAGAATCCAGACGAGAAAACAGTGCAGTGCTACCGGCGACTCCTCAAGGCCCTCAAGACTGCACGGCTTCAGCCCATGGTCATCCTGCACCACCAGACCCTCCCTGCCAGCACCCTCCGGAGAACCGAAGCCTTTGCTGACCTCTTCGCCGACTATGCCACATTCGCCTTCCACTCCTTCGGGGACCTAGTTGGGATCTGGTTCACCTTCAGTGACTTGGAGGAAGTGATCAAGGAGCTTCCCCACCAGGAATCAAGAGCGTCACAACTCCAGACCCTCAGTGATGCCCACAGAAAAGCCTATGAGATTTACCACGAAAGCTATGCTTTTCAGGGCGGAAAACTCTCTGTTGTCCTGCGAGCTGAAGATATCCCGGAGCTCCTGCTAGAACCACCCATATCTGCGCTTGCCCAGGACACGGTCGATTTCCTCTCTCTTGATTTGTCTTATGAATGCCAAAATGAGGCAAGTCTGCGGCAGAAGCTGAGTAAATTGCAGACCATTGAGCCAAAAGTGAAAGTTTTCATCTTCAACCTAAAACTCCCAGACTGCCCCTCCACCATGAAGAACCCAGCCAGTCTGCTCTTCAGCCTTTTTGAAGCCATAAATAAAGACCAAGTGCTCACCATTGGGTTTGATATTAATGAGTTTCTGAGTTGTTCATCAAGTTCCAAGAAAA

In [8]:
# La clase Seq tiene diversos metodos, por ejemplo:
# Para obtener la hebra inversa complementaria se puede usar el metodo reverse_complement()
print(lactase_sequence.reverse_complement())

GACAGTCTGCTGTTTTTATTTTCTGGAAAACACAAGATGTGAAGCTAGGGAGAGCTTGCAGAAGGGCAGGAGATGATATTGCAGTCTATGCAATGGAGTTGATTTCTTCTTATAGGAAGGATTTTTACGGTTTTTGCTCCCTTAACAACCCTTAACAACTCTGAAACTTAAAACAGCCCTGTTAAGTTCAATTAAGTGGTTCACAGACCCACTAGACCAGTATCTACACGTTTCCGCAAGAGCTACTTGCTTCTCAAATGCCCAAATGAACTCTGATACTGGAGCAAGATGGAGATATTTCCATTTTACTCAGCAAGTCGAAATCATTCAAGATTAAAGTCATCTCTAACGGTGCAGCAGGACTTTATGGAGAAGTCCAGTATCAGCAGAGTCTAAGACCCTAAGGTGTTTGGTGGCCGGTAAACATAGATGAAGAAACTAGGCCTGCTTCATAGAACTTGAGGTGGTAACTCATCAGAATGAAGACACCGGGCTCAATTCCTGTTGGCTTCGTTGTGTTTTCCCTTGCTTAGAGCGCTTGCAGTACTTGTATGACAGAAATGCCAAGCCACAGACTCCAAGAAGCACAAGAGAAAAGAGAACGTACAAAGCTGTCTGTGCTTCTGTGGTGCCGAGCATTAGCCCCAGGAACTGCACCTCCTCCTGTCTCACGGGGCTGATGGTGGGTCCAGCATCTGGCTGGTGGAGACAAGCGTGAGGCCCTGTAGCGGGGTCAGGGAAGCCATTGCATCGGACCACAGAGGCGTAGAACTTCGCTGATGCTTTGGGGATCCTTGGCAGAGAAGGGTCACTGTAGTTCACAAAATGCAGACCAAATCTCTCTGAAAAGCCTGTGGCCCACTCAAAATTGTCCATCGCACTCCAAACTGTGTATCCTCGAAGGTCCACCTTGTCCTGCACAGCTTTGAGGGCCTCATTGATGTAAGTCCGAAGGTAGTAGATCCTTGCAGTGTCATTGAGGTCTGTTTCTTCCCGCTGG

In [9]:
#Se parecen a las string, se calcula su longitud con len y se accede a subsecuencias con []
# Longitud de la secuencia
print(len(lactase_sequence))

6273


In [10]:
# Subsecuencia
lactase_sequence[0:3]

Seq('AAC')

In [11]:
#Contenido en GC
from Bio.SeqUtils import GC
GC(lactase_sequence)

52.239757691694564

## Ejercicio 1:

* Crea una función llamada *get_multinomial_model* que calcule el modelo multinomial


In [12]:

#get_multinomial_model(lactase_sequence)
#MODELO MULTINOMIAL ES... no tener en cuenta el contexto. Como se calculaba
#Entrada vector de caracteres sequencia dna
#1 frecuencias absolutas de acgt

* Descargar de la NCBI mediante Biopython el genoma del lamda fago (NC_001416).
* Salva el genoma en un fichero FASTA

In [13]:

fago = Entrez.efetch(db='nucleotide', id=['NC_001416'], rettype='fasta')  
secuencias = list(SeqIO.parse(fago, 'fasta'))
for i in secuencias:
    print(i)



ID: NC_001416.1
Name: NC_001416.1
Description: NC_001416.1 Enterobacteria phage lambda, complete genome
Number of features: 0
Seq('GGGCGGCGACCTCGCGGGTTTTCGCTATTTATGAAAATTTTCCGGTTTAAGGCG...ACG')


In [14]:
SeqIO.write(secuencias, "fago.fasta", "fasta")
fagolambda = list(SeqIO.parse("fago.fasta", "fasta"))

#print(fagolambda)
#print(secuencias)

fago_sequence = fagolambda[0].seq

print(fago_sequence)

GGGCGGCGACCTCGCGGGTTTTCGCTATTTATGAAAATTTTCCGGTTTAAGGCGTTTCCGTTCTTCTTCGTCATAACTTAATGTTTTTATTTAAAATACCCTCTGAAAAGAAAGGAAACGACAGGTGCTGAAAGCGAGGCTTTTTGGCCTCTGTCGTTTCCTTTCTCTGTTTTTGTCCGTGGAATGAACAATGGAAGTCAACAAAAAGCAGCTGGCTGACATTTTCGGTGCGAGTATCCGTACCATTCAGAACTGGCAGGAACAGGGAATGCCCGTTCTGCGAGGCGGTGGCAAGGGTAATGAGGTGCTTTATGACTCTGCCGCCGTCATAAAATGGTATGCCGAAAGGGATGCTGAAATTGAGAACGAAAAGCTGCGCCGGGAGGTTGAAGAACTGCGGCAGGCCAGCGAGGCAGATCTCCAGCCAGGAACTATTGAGTACGAACGCCATCGACTTACGCGTGCGCAGGCCGACGCACAGGAACTGAAGAATGCCAGAGACTCCGCTGAAGTGGTGGAAACCGCATTCTGTACTTTCGTGCTGTCGCGGATCGCAGGTGAAATTGCCAGTATTCTCGACGGGCTCCCCCTGTCGGTGCAGCGGCGTTTTCCGGAACTGGAAAACCGACATGTTGATTTCCTGAAACGGGATATCATCAAAGCCATGAACAAAGCAGCCGCGCTGGATGAACTGATACCGGGGTTGCTGAGTGAATATATCGAACAGTCAGGTTAACAGGCTGCGGCATTTTGTCCGCGCCGGGCTTCGCTCACTGTTCAGGCCGGAGCCACAGACCGCCGTTGAATGGGCGGATGCTAATTACTATCTCCCGAAAGAATCCGCATACCAGGAAGGGCGCTGGGAAACACTGCCCTTTCAGCGGGCCATCATGAATGCGATGGGCAGCGACTACATCCGTGAGGTGAATGTGGTGAAGTCTGCCCGTGTCGGTTATTCCAAAATGCTGCTGGGTGTTTATGCCTACTTTATAGAGCATAA

* ¿Cual es la longitud de la secuencia?
* ¿Cual es su modelo multinomial?
* ¿Cual es su contenido en GC?

In [15]:
len(fago_sequence)

48502

In [16]:
from Bio.SeqUtils import GC
GC(fago_sequence)

49.85773782524432

In [17]:
def get_multinomial_model(sec):
    freq_a=sec.count("A")/len(sec)
    freq_c=sec.count("C")/len(sec)
    freq_g=sec.count("G")/len(sec)
    freq_t=sec.count("T")/len(sec)
    total_freq=(freq_a + freq_c + freq_g + freq_t)
    p_a=freq_a/total_freq
    p_c=freq_c/total_freq 
    p_g=freq_g/total_freq
    p_t=freq_t/total_freq
    multinomial=(p_a, p_c, p_g, p_t)
    return multinomial



In [18]:
get_multinomial_model(fago_sequence)



(0.2542987918023999,
 0.23425838109768668,
 0.2643189971547565,
 0.24712382994515691)

In [19]:
def get_multinomial_model2(sec):
    nts=["A", "C", "G", "T"]
    freqs=[]
    ps=[]
    for i in nts:
        freqs.append(sec.count(i)/len(sec))
    total_freq=sum(freqs)
    for j in freqs:
        ps.append(j/total_freq)
    return(ps)
        
        
        


In [20]:
get_multinomial_model2(fago_sequence)


[0.2542987918023999,
 0.23425838109768668,
 0.2643189971547565,
 0.24712382994515691]

In [21]:
def get_multinomial_model3(sec):  #ANA BELEN
    mm = {'A':0,'C':0, 'G':0,'T':0}
    for n in sec:
        mm[n] += 1
    for n in mm:
        mm[n] /= len(sec)
    return(mm)

get_multinomial_model3(fago_sequence)

{'A': 0.2542987918023999,
 'C': 0.23425838109768668,
 'G': 0.2643189971547565,
 'T': 0.24712382994515691}

## Ejercicio 2:

* Implementa una función para calcular el contenido local en GC de una secuencia (revisar apuntes de IAB)
* Aplica la función al genoma del lambda fago con una longitud de ventana de 10000 y un desplazamiento de 1000

In [22]:
# este es el pseudocodigo para R, tenemos que adaptarlo
#Entrada: Un vector que representa una secuencia de DNA (dna.sequence), la longitud de la
# ventana(window.length) y el desplazamiento (offset)
#Paso 1: Inicialización de variables antes del bucle:
# lowest ← 1
# highest ← window.length
# local.GC ← numeric(0)
# positions ← numeric(0)
# i ← 1
#Paso 2: Mientras highest <= length(dna.sequence)
# Guardar valor local: local.GC[i] ← GC(dna.sequence[lowest:highest])
# Guardar posición actual: positions[i] ← lowest
# Actualizar ventana: lowest ← lowest + offset
# highest ← highest + offset
# i ← i + 1
#Paso 3: Devolver result una lista con local.GC y positions.

#Devolviendo una lista

#Devolviendo un diccionario


In [23]:
def get_local_GC(sec, windowlength, offset):
    lowest=0
    highest= windowlength
    localGC=[]
    positions=[]
    while highest <= len(sec):
        localGC.append(round(GC(sec[lowest:highest])))
        positions.append(lowest)
        lowest=lowest + offset
        highest=highest + offset
    resultado=[localGC, positions]
    return(resultado)     
        
    
    
    

In [24]:
def get_local_GC_clase(seq, window_length, offset):
    lowest=0
    highest=window_length
    local_GC=[]
    while highest < len(seq):
        local_GC.append( ( GC(seq[lowest:highest]), lowest) )
        lowest+=offset
        highest+=offset
    return local_GC


In [25]:
def get_local_GC_clase_dic(seq, window_length, offset):
    lowest=0
    highest=window_length
    positions=lowest
    local_GC={}
    while highest < len(seq):
        local_GC[positions]=( GC(seq[lowest:highest])) 
        lowest+=offset
        highest+=offset
        positions+=offset
        
    return local_GC
        
        
        

In [26]:
get_local_GC_clase_dic(fago_sequence,10000,1000)

{0: 56.46,
 1000: 57.1,
 2000: 57.49,
 3000: 57.88,
 4000: 57.78,
 5000: 57.59,
 6000: 57.27,
 7000: 57.61,
 8000: 57.72,
 9000: 57.53,
 10000: 57.31,
 11000: 57.4,
 12000: 56.73,
 13000: 55.07,
 14000: 52.41,
 15000: 50.62,
 16000: 48.64,
 17000: 46.31,
 18000: 44.39,
 19000: 43.51,
 20000: 42.35,
 21000: 41.2,
 22000: 41.07,
 23000: 41.95,
 24000: 43.16,
 25000: 43.13,
 26000: 44.05,
 27000: 44.64,
 28000: 45.04,
 29000: 45.08,
 30000: 45.96,
 31000: 46.22,
 32000: 45.95,
 33000: 45.79,
 34000: 46.12,
 35000: 47.07,
 36000: 47.44,
 37000: 47.94,
 38000: 47.32}

In [27]:
def get_local_GC_clase_dic_clase(seq, window_length, offset):
    lowest=0
    highest=window_length
    positions=lowest
    local_GC={}
    while highest < len(seq):
        local_GC[lowest]=( GC(seq[lowest:highest])) 
        lowest+=offset
        highest+=offset
        
    return local_GC
    


In [28]:
get_local_GC_clase_dic_clase(fago_sequence,10000,1000)

{0: 56.46,
 1000: 57.1,
 2000: 57.49,
 3000: 57.88,
 4000: 57.78,
 5000: 57.59,
 6000: 57.27,
 7000: 57.61,
 8000: 57.72,
 9000: 57.53,
 10000: 57.31,
 11000: 57.4,
 12000: 56.73,
 13000: 55.07,
 14000: 52.41,
 15000: 50.62,
 16000: 48.64,
 17000: 46.31,
 18000: 44.39,
 19000: 43.51,
 20000: 42.35,
 21000: 41.2,
 22000: 41.07,
 23000: 41.95,
 24000: 43.16,
 25000: 43.13,
 26000: 44.05,
 27000: 44.64,
 28000: 45.04,
 29000: 45.08,
 30000: 45.96,
 31000: 46.22,
 32000: 45.95,
 33000: 45.79,
 34000: 46.12,
 35000: 47.07,
 36000: 47.44,
 37000: 47.94,
 38000: 47.32}

In [29]:
get_local_GC(lambda_phage_seq,10000,1000)

NameError: name 'lambda_phage_seq' is not defined

## Ejercicio 5:

* Implementa una función para calcular el modelo markoviano de una secuencia (revisar apuntes de IAB)
* Aplica la función al genoma del lambda fago

In [None]:
#Como el modelo ultinomial pero teniendo en cuenta el contexto. Hacemos lista de modelo mulitnomial y ademas atriz de 
#transcicion recibe. Matriz de transicion es probabilidad de cada dimero. 
# contmos dimeros
#dividims entre numeros que empiezan con ese dimero para crear mtriz de decision
#... haremos 3 funciones y luego en la ultima usamos todas
#primero hacemos funcion count que le damos sec y nos da conteo de dimeros. Guardamos dimeros y contamos cada vez que aparece. 

#Sumamos dimeros cada vez que aparezcan. Luego diccionario para ir dividiendo cada dimero por su correspondiente sumatorio, 
#frecuencia relativa. 

In [None]:
def count_dimeros(sec):
    nts="ACGT"
    dic={}
    dimeros=[]
    for i in range(0, len(sec)-1):
        dimeros.append(sec[i:i+2])
    for d in dimeros:
         dic[d] = sec.count(d)
        
    return dic
  
#ESTO ESTA MAL    
    


In [31]:
def count_dimeros_clase(sec):
    dimeros={}
    for i in range(0, len(sec)-1):
        key=sec[i] + sec[i+1]
        if key in dimeros:
            dimeros[key]+=1
        else:
            dimeros[key]=1
    return dimeros

In [None]:
count_dimeros(fago_sequence)


In [32]:
count_dimeros_clase(fago_sequence)
dimeros=count_dimeros_clase(fago_sequence)
dimeros

{'GG': 3180,
 'GC': 3615,
 'CG': 3113,
 'GA': 3256,
 'AC': 2573,
 'CC': 2497,
 'CT': 2536,
 'TC': 2677,
 'GT': 2768,
 'TT': 3345,
 'TA': 2170,
 'AT': 3337,
 'TG': 3794,
 'AA': 3692,
 'AG': 2732,
 'CA': 3216}

In [33]:
def calcula_matriz2(dimeros):
    nts = "ATGC"
    dic = {nt: 0 for nt in nts}
   
    for dimero, frecuencia in dimeros.items():
        for nt in nts:
            if nt in dimero:
                dic[nt] += frecuencia

    for i, j in dimeros.items():
        for k, l in dic.items():
            if k in i:
                dimeros[i]=j/l
    return dimeros
    

In [34]:
matriz_fago=calcula_matriz2(dimeros)
matriz_fago

{'GG': 0.14159764894469676,
 'GC': 0.17872151085183172,
 'CG': 0.15390319869481386,
 'GA': 0.1449817436993499,
 'AC': 0.12720620952192613,
 'CC': 0.12344885549018639,
 'CT': 0.12537697137489495,
 'TC': 0.13234785188114895,
 'GT': 0.12325229316947191,
 'TT': 0.16216609298492268,
 'TA': 0.10520191981383624,
 'AT': 0.16177825180588548,
 'TG': 0.16893757235728915,
 'AA': 0.17601067887109076,
 'AG': 0.12164930091726779,
 'CA': 0.158995402185198}

In [35]:
def calcula_matriz_clase(dimeros):
    alphabet=['A', 'C', 'G', 'T']
    for nucleotido1 in alphabet:
        suma_nucleotido1=0
        for nucleotido2 in alphabet:
            key=nucleotido1+nucleotido2
            suma_nucleotido1+=dimeros[key]
        for nucleotido2 in alphabet:
            key=nucleotido1+nucleotido2
            dimeros[key]/=suma_nucleotido1
    return(dimeros)

In [36]:
calcula_matriz_clase(dimeros)

{'GG': 0.24058598228157918,
 'GC': 0.30366245883029713,
 'CG': 0.27398345361732085,
 'GA': 0.2463358359461704,
 'AC': 0.21683698098272128,
 'CC': 0.2197676465411019,
 'CT': 0.22320014082027811,
 'TC': 0.23273903446483826,
 'GT': 0.2094157229419532,
 'TT': 0.2851756138674582,
 'TA': 0.18500181826379203,
 'AT': 0.27576883111357975,
 'TG': 0.29708353340391136,
 'AA': 0.3000295690797082,
 'AG': 0.2073646188239909,
 'CA': 0.28304875902129906}