# Importar librerías

In [765]:

!pip install biopython  # (instalar desde Anaconda Prompt/Terminal de Anaconda)

ERROR: Invalid requirement: '#'

[notice] A new release of pip is available: 23.0.1 -> 23.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [766]:
import math  # Importa una librería

from Bio import SeqIO  # Importa una función o clase de una librería

# Leer archivo FASTA sin ayuda de librerías externas como BioPython

In [767]:
secuencias = []  # Crea una lista vacía

with open("data/adn.fasta", "r") as f:  # Usa función open en modo de lectura ("r" de "read") y darle alias f
    linea = f.readline()  # Lee primera línea del archivo y la guarda en la variable nombre
    while linea != None and linea != "":  # Mientras haya líneas no vacías...
        nombre = linea  # El nombre de la secuencia es lo primero con lo que se topa (antepuesto por un >)
        nombre = nombre.strip()  # Elimina caracteres en blanco (espacios, tabulaciones, saltos de línea) antes y después del texto
        nombre = nombre[
                 1:]  # Elimina el carácter ">" del nombre. Toma la cadena nombre desde el carácter en el índice 1
        secuencia = f.readline().strip()  # Lee segunda línea del archivo, elimina caracteres en blanco y la guarda en la variable nombre
        secuencia = secuencia.upper()  # Pone toda la secuencia en mayúsculas
        entrada = (nombre, secuencia)  # Crea una tupla con dos datos: el nombre y la secuencia de la proteína
        secuencias.append(entrada)  # Agrega la tupla a una lista
        linea = f.readline()  # Lee el nombre en la siguiente línea. Puede que no exista, lo que haría que el ciclo se frene.

print(secuencias)  # Las listas se muestran entre [], las tuplas entre ()

[('secuencia1', 'ACACTTACTG')]


# Leer archivo FASTA con BioPython

In [768]:
# Crea función leerArchivo para leer archivos de secuencias de ADN o proteínas. Por defecto es de tipo fasta.
def leerArchivo(ruta):
    entradas = []  # Crea una lista vacía

    # Usando la función parse de la clase SeqIO, lee e interpreta el archivo como un FASTA. Recorre todas las entradas una por una.
    for record in SeqIO.parse(ruta, "fasta"):
        nombre = record.id  # Obtiene el nombre de la secuencia de la variable record
        secuencia = str(record.seq)  # Obtiene la secuencia de la variable record y la transforma en cadena de texto
        secuencia = secuencia.upper()  # Pone toda la secuencia en mayúsculas
        entrada = (nombre, secuencia)  # Crea una tupla con dos datos: el nombre y la secuencia de la proteína
        entradas.append(entrada)  # Agrega la tupla a una lista

    return entradas  # Las listas se muestran entre [], las tuplas entre ()


entradas = leerArchivo("data/proteinas-5.fasta")

print(entradas)

[('0', 'GMWRRVTATF'), ('1', 'YARCEEMIHG'), ('2', 'VDTSKRKTFR'), ('3', 'RKPNKSMWWI'), ('4', 'KGSSNNWDSW'), ('5', 'VMCDAMIWDW')]


# Leer matriz BLOSUM (solo para proteínas)

In [769]:
blosum = {}  # Crear matriz como un diccionario vacío

alfabeto = ["A", "R", "N", "D", "C", "E", "Q", "G", "H", "I", "L", "K", "M", "F", "P", "S", "T", "W", "Y", "V"]

with open("data/blosum62.txt", "r") as f:  # Abrir archivo blosum62.txt en modo lectura. Este archivo está en el mismo
    # orden que nuestro alfabeto.
    f.readline()  # Se omite la primera línea del archivo, ya que son encabezados de columnas
    for letra in alfabeto:  # Recorre todas las letras del alfabeto en orden
        blosum[letra] = {}  # Para cada letra se asigna un nuevo diccionario
        linea = f.readline().strip()  # Se lee una línea por cada letra
        valores = linea.split()  # Se divide la línea cada vez que encuentre un espacio.
        for i in range(len(alfabeto)):  # Se recorre el listado de valores
            columna = alfabeto[i]
            blosum[letra][columna] = int(valores[i])  # Se asigna el valor correspondiente a cada letra en la fila

print("\nMATRIZ BLOSUM62")  # \n es el carácter de salto de línea
encabezado = "AA\t"  # \t es el carácter de tabulación
for letra in alfabeto:
    encabezado += letra + "\t"
print(encabezado)
for letra1 in alfabeto:
    print(letra1 + "\t", end="")  # El parámetro end="" es para que no salte a la siguiente línea
    for letra2 in alfabeto:
        print(str(blosum[letra1][letra2]) + "\t", end="")
    print("")


MATRIZ BLOSUM62
AA	A	R	N	D	C	E	Q	G	H	I	L	K	M	F	P	S	T	W	Y	V	
A	4	-1	-2	-2	0	-1	-1	0	-2	-1	-1	-1	-1	-2	-1	1	0	-3	-2	0	
R	-1	5	0	-2	-3	1	0	-2	0	-3	-2	2	-1	-3	-2	-1	-1	-3	-2	-3	
N	-2	0	6	1	-3	0	0	0	1	-3	-3	0	-2	-3	-2	1	0	-4	-2	-3	
D	-2	-2	1	6	-3	0	2	-1	-1	-3	-4	-1	-3	-3	-1	0	-1	-4	-3	-3	
C	0	-3	-3	-3	9	-3	-4	-3	-3	-1	-1	-3	-1	-2	-3	-1	-1	-2	-2	-1	
E	-1	1	0	0	-3	5	2	-2	0	-3	-2	1	0	-3	-1	0	-1	-2	-1	-2	
Q	-1	0	0	2	-4	2	5	-2	0	-3	-3	1	-2	-3	-1	0	-1	-3	-2	-2	
G	0	-2	0	-1	-3	-2	-2	6	-2	-4	-4	-2	-3	-3	-2	0	-2	-2	-3	-3	
H	-2	0	1	-1	-3	0	0	-2	8	-3	-3	-1	-2	-1	-2	-1	-2	-2	2	-3	
I	-1	-3	-3	-3	-1	-3	-3	-4	-3	4	2	-3	1	0	-3	-2	-1	-3	-1	3	
L	-1	-2	-3	-4	-1	-2	-3	-4	-3	2	4	-2	2	0	-3	-2	-1	-2	-1	1	
K	-1	2	0	-1	-3	1	1	-2	-1	-3	-2	5	-1	-3	-1	0	-1	-3	-2	-2	
M	-1	-1	-2	-3	-1	0	-2	-3	-2	1	2	-1	5	0	-2	-1	-1	-1	-1	1	
F	-2	-3	-3	-3	-2	-3	-3	-3	-1	0	0	-3	0	6	-4	-2	-2	1	3	-1	
P	-1	-2	-2	-1	-3	-1	-1	-2	-2	-3	-3	-1	-2	-4	7	-1	-1	-4	-3	-2	
S	1	-1	1	0	-1	0	0	0	-1	-2	-2	0	-1	-2	-1	4	1	-3	-2	-2	
T	0	-1	0	-1	-1	-1	-1	-2	-

# Imprimir tabla

In [770]:
def imprimirTabla(nomTabla, tabla, decimales=4):
    tablaMayusculas = nomTabla.upper()
    print("\nTABLA DE " + tablaMayusculas)  # \n es el carácter de salto de línea
    encabezado = "\t"  # \t es el carácter de tabulación
    for letra in alfabeto:
        encabezado += letra + "\t"
    print(encabezado)
    for posicion in range(len(tabla)):
        print(str(posicion + 1) + " A\t", end="")  # El parámetro end="" es para que no salte a la siguiente línea
        for letra in alfabeto:
            formato = "{0:." + str(decimales) + "f}"
            print(formato.format(tabla[posicion][letra]) + "\t", end="")
        print("")

# Crear alfabeto para ADN o proteínas

In [771]:
def obtenerAlfabeto(entradas):  # Crea función llamada obtenerAlfabeto que recibe una lista de entradas
    alfabeto = set()  # Crea un set vacío. Los sets son listas que no permiten elementos repetidos.

    for entrada in entradas:  # Recorre las entradas una por una
        for letra in entrada[1]:  # Recorre cada letra en la secuencia de la entrada
            alfabeto.add(letra)

    print("Set de letras leídas:", alfabeto)  # Los sets se muestran entre {}

    adn = ["A", "C", "T", "G"]  # Crea una lista inicializado con las letras de ADN

    if alfabeto.issubset(adn):  # Si el alfabeto creado a partir de las entradas solo contiene letras de ADN, es ADN
        alfabeto = adn
    else:
        alfabeto = ["A", "R", "N", "D", "C", "E", "Q", "G", "H", "I", "L", "K", "M", "F", "P", "S", "T", "W", "Y", "V"]

    return alfabeto


alfabeto = obtenerAlfabeto(entradas)

print("Alfabeto:", alfabeto)

Set de letras leídas: {'Y', 'I', 'D', 'A', 'P', 'T', 'R', 'S', 'G', 'V', 'F', 'E', 'W', 'C', 'H', 'N', 'K', 'M'}
Alfabeto: ['A', 'R', 'N', 'D', 'C', 'E', 'Q', 'G', 'H', 'I', 'L', 'K', 'M', 'F', 'P', 'S', 'T', 'W', 'Y', 'V']


# Calcular conteos

In [772]:
# Crea función llamada calcularConteo que recibe una lista de entradas
def calcularConteo(entradas):
    modeloConteo = {}  # Crea un diccionario vacío para el modelo de conteo
    for letra in alfabeto:  # Recorre las letras del alfabeto
        modeloConteo[letra] = 0  # Crea la llave de la letra en el diccionario en valor 0

    conteo = []  # Crea una lista vacía para los conteos
    longitud = len(entradas[0][1])  # Obtiene la longitud de las secuencias
    for i in range(longitud):  # Repite el ciclo N veces, siendo N la longitud de las secuencias
        conteo.append(
            modeloConteo.copy())  # Copia el modelo de conteo y agrega a la lista tantos modelos como carácteres haya en las secuencias

    for entrada in entradas:  # Recorre las entradas una por una
        i = 0  # Posición de la letra actual
        for letra in entrada[1]:  # Recorre cada letra en la secuencia de la entrada
            conteo[i][
                letra] += 1  # Suma 1 al conteo de la letra en la posición i. También se podría con conteo[i][letra] = conteo[i][letra] + 1
            i += 1  # Se mueve a la siguiente posición

    return conteo


conteo = calcularConteo(entradas)  # Guardar el conteo en la variable conteo

# print(conteo) # Los diccionarios también se muestran entre {}, pero con el formato {llave: valor, llave: valor, ...}

imprimirTabla("conteo", conteo, decimales=0)


TABLA DE CONTEO
	A	R	N	D	C	E	Q	G	H	I	L	K	M	F	P	S	T	W	Y	V	
1 A	0	1	0	0	0	0	0	1	0	0	0	1	0	0	0	0	0	0	1	2	
2 A	1	0	0	1	0	0	0	1	0	0	0	1	2	0	0	0	0	0	0	0	
3 A	0	1	0	0	1	0	0	0	0	0	0	0	0	0	1	1	1	1	0	0	
4 A	0	1	1	1	1	0	0	0	0	0	0	0	0	0	0	2	0	0	0	0	
5 A	1	1	1	0	0	1	0	0	0	0	0	2	0	0	0	0	0	0	0	0	
6 A	0	1	1	0	0	1	0	0	0	0	0	0	1	0	0	1	0	0	0	1	
7 A	0	0	0	0	0	0	0	0	0	1	0	1	2	0	0	0	1	1	0	0	
8 A	1	0	0	1	0	0	0	0	0	1	0	0	0	0	0	0	1	2	0	0	
9 A	0	0	0	1	0	0	0	0	1	0	0	0	0	1	0	1	1	1	0	0	
10 A	0	1	0	0	0	0	0	1	0	1	0	0	0	1	0	0	0	2	0	0	


# Calcular frecuencias

In [773]:
# Crea función llamada calcularFrecuencias que recibe una lista de entradas y una tabla de conteos
# ponderarSecuencia define si se calcula la frecuencia con ponderación con pseudoconteos (para evitar ceros) o no. Por defecto está activado.
# beta define el peso del pseudoconteo. Por defecto toma valor 1.
def calcularFrecuencias(entradas, conteo, ponderarSecuencia=False, beta=1):
    modeloFrecuencias = {}  # Crea un diccionario vacío para el modelo de frecuencias
    for letra in alfabeto:  # Recorre las letras del alfabeto
        modeloFrecuencias[letra] = 0  # Crea la llave de la letra en el diccionario en valor 0

    frecuencias = []  # Crea una lista vacía para las frecuencias
    longitud = len(entradas[0][1])  # Obtiene la longitud de las secuencias
    for i in range(longitud):  # Repite el ciclo N veces, siendo N la longitud de las secuencias
        frecuencias.append(
            modeloFrecuencias.copy())  # Copia el modelo de frecuencias y agrega a la lista tantos modelos como carácteres haya en las secuencias

    if ponderarSecuencia:  # Si se calcula frecuencia con ponderación...
        # Calcula la frecuencia previa general dependiendo de cuántas letras hay en el alfabeto.
        frecuenciasPrevias = {}
        for letra in alfabeto:
            frecuenciasPrevias[letra] = 1 / len(
                alfabeto)  # En este caso, todas las letras tendrán igual frecuencia previa.
        for i in range(len(conteo)):  # Recorre la lista de conteos
            sumaPseudofrecuencias = 0  # Variable para almacenar suma de pseudofrecuencias antes de normalizar
            for llave, valor in conteo[i].items():  # Recorre el diccionario del conteo de la posición i
                frecuencias[i][llave] = (valor + beta * frecuenciasPrevias[llave]) / len(
                    entradas)  # (Cij + b * fij) / N, N = cantidad de entradas
                sumaPseudofrecuencias += frecuencias[i][llave]  # Suma el resultado a la suma de pseudofrecuencias
            for llave in conteo[i]:
                frecuencias[i][llave] /= sumaPseudofrecuencias  # Normaliza con respecto a la suma de pseudofrecuencias
    else:
        for i in range(len(conteo)):  # Recorre la lista de conteos
            for llave, valor in conteo[i].items():  # Recorre el diccionario del conteo de la posición i
                frecuencias[i][llave] = valor / len(entradas)  # Cij / N, N = cantidad de entradas

    return frecuencias


frecuencias = calcularFrecuencias(entradas, conteo, ponderarSecuencia=False, beta=0)
# frecuencias = calcularFrecuencias(entradas, conteo, ponderarSecuencia=True, beta=50) # Guardar el conteo en la
# variable frecuencias

# print(frecuencias)

imprimirTabla("frecuencias", frecuencias, decimales=3)


TABLA DE FRECUENCIAS
	A	R	N	D	C	E	Q	G	H	I	L	K	M	F	P	S	T	W	Y	V	
1 A	0.000	0.167	0.000	0.000	0.000	0.000	0.000	0.167	0.000	0.000	0.000	0.167	0.000	0.000	0.000	0.000	0.000	0.000	0.167	0.333	
2 A	0.167	0.000	0.000	0.167	0.000	0.000	0.000	0.167	0.000	0.000	0.000	0.167	0.333	0.000	0.000	0.000	0.000	0.000	0.000	0.000	
3 A	0.000	0.167	0.000	0.000	0.167	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.167	0.167	0.167	0.167	0.000	0.000	
4 A	0.000	0.167	0.167	0.167	0.167	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.333	0.000	0.000	0.000	0.000	
5 A	0.167	0.167	0.167	0.000	0.000	0.167	0.000	0.000	0.000	0.000	0.000	0.333	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.000	
6 A	0.000	0.167	0.167	0.000	0.000	0.167	0.000	0.000	0.000	0.000	0.000	0.000	0.167	0.000	0.000	0.167	0.000	0.000	0.000	0.167	
7 A	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.167	0.000	0.167	0.333	0.000	0.000	0.000	0.167	0.167	0.000	0.000	
8 A	0.167	0.000	0.000	0.167	0.000	0.000	0.000	0.000	0.000	0.1

# Calcular pesos

In [774]:
# Crea función llamada calcularPesos que recibe una lista de entradas y una tabla de frecuencias
def calcularPesos(entradas, frecuencias):
    modeloPesos = {}  # Crea un diccionario vacío para el modelo de pesos
    for letra in alfabeto:  # Recorre las letras del alfabeto
        modeloPesos[letra] = 0  # Crea la llave de la letra en el diccionario en valor 0

    pesos = []  # Crea una lista vacía para los pesos
    longitud = len(entradas[0][1])  # Obtiene la longitud de las secuencias
    for i in range(longitud):  # Repite el ciclo N veces, siendo N la longitud de las secuencias
        pesos.append(
            modeloPesos.copy())  # Copia el modelo de frecuencias y agrega a la lista tantos modelos como carácteres haya en las secuencias

    if len(entradas) == 1 and len(
            alfabeto) == 20:  # Si solo hay una secuencia y se leyeron proteínas, el peso es igual al valor de la matriz BLOSUM62
        i = 0
        for letra1 in entradas[0][1]:  # Recorre cada letra de la secuencia única
            for letra2 in alfabeto:
                pesos[i][letra2] = blosum[letra1][letra2]
            i += 1

    else:
        # Calcula la frecuencia previa general dependiendo de cuántas letras hay en el alfabeto.
        frecuenciasPrevias = {}
        for letra in alfabeto:
            frecuenciasPrevias[letra] = 1 / len(
                alfabeto)  # En este caso, todas las letras tendrán igual frecuencia previa.
        for i in range(len(pesos)):  # Recorre la lista de frecuencias
            for llave, valor in pesos[i].items():  # Recorre el diccionario del conteo de la posición i
                # CORRIGE AQUÍ - El código lanza error si no hay ponderación. Haz que esto no suceda.
                if frecuencias[i][llave] <= 0:
                    pesos[i][llave] = float('-inf')
                else:
                    pesos[i][llave] = math.log(frecuencias[i][llave] / frecuenciasPrevias[llave])

    return pesos


pesos = calcularPesos(entradas, frecuencias)

imprimirTabla("pesos", pesos)


TABLA DE PESOS
	A	R	N	D	C	E	Q	G	H	I	L	K	M	F	P	S	T	W	Y	V	
1 A	-inf	1.2040	-inf	-inf	-inf	-inf	-inf	1.2040	-inf	-inf	-inf	1.2040	-inf	-inf	-inf	-inf	-inf	-inf	1.2040	1.8971	
2 A	1.2040	-inf	-inf	1.2040	-inf	-inf	-inf	1.2040	-inf	-inf	-inf	1.2040	1.8971	-inf	-inf	-inf	-inf	-inf	-inf	-inf	
3 A	-inf	1.2040	-inf	-inf	1.2040	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	1.2040	1.2040	1.2040	1.2040	-inf	-inf	
4 A	-inf	1.2040	1.2040	1.2040	1.2040	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	1.8971	-inf	-inf	-inf	-inf	
5 A	1.2040	1.2040	1.2040	-inf	-inf	1.2040	-inf	-inf	-inf	-inf	-inf	1.8971	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	
6 A	-inf	1.2040	1.2040	-inf	-inf	1.2040	-inf	-inf	-inf	-inf	-inf	-inf	1.2040	-inf	-inf	1.2040	-inf	-inf	-inf	1.2040	
7 A	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	1.2040	-inf	1.2040	1.8971	-inf	-inf	-inf	1.2040	1.2040	-inf	-inf	
8 A	1.2040	-inf	-inf	1.2040	-inf	-inf	-inf	-inf	-inf	1.2040	-inf	-inf	-inf	-inf	-inf	-inf	1.2040	1.8971	-inf	-inf	
9 A	-inf	-inf	-inf

# Prueba con una secuencia de aminoácidos

In [775]:
entradas = leerArchivo("data/adn.fasta")
alfabeto = obtenerAlfabeto(entradas)
conteos = calcularConteo(entradas)
frecuencias = calcularFrecuencias(entradas, conteos,ponderarSecuencia=False, beta=0)
pesos = calcularPesos(entradas, frecuencias)
imprimirTabla("pesos", pesos)

Set de letras leídas: {'C', 'G', 'T', 'A'}

TABLA DE PESOS
	A	C	T	G	
1 A	1.3863	-inf	-inf	-inf	
2 A	-inf	1.3863	-inf	-inf	
3 A	1.3863	-inf	-inf	-inf	
4 A	-inf	1.3863	-inf	-inf	
5 A	-inf	-inf	1.3863	-inf	
6 A	-inf	-inf	1.3863	-inf	
7 A	1.3863	-inf	-inf	-inf	
8 A	-inf	1.3863	-inf	-inf	
9 A	-inf	-inf	1.3863	-inf	
10 A	-inf	-inf	-inf	1.3863	


# Prueba con una secuencia de aminoácidos

In [776]:
# aquí cambiar los parámetros de ponderación y beta
# tambien el archivo de entrenamiento
entradas = leerArchivo("data/proteinas.fasta")
alfabeto = obtenerAlfabeto(entradas)
conteos = calcularConteo(entradas)
frecuencias = calcularFrecuencias(entradas, conteos,ponderarSecuencia=False, beta=50)
pesos = calcularPesos(entradas, frecuencias)
imprimirTabla("pesos", pesos)

Set de letras leídas: {'Y', 'I', 'D', 'A', 'P', 'T', 'R', 'S', 'G', 'V', 'F', 'E', 'W', 'C', 'H', 'N', 'K', 'M'}

TABLA DE PESOS
	A	R	N	D	C	E	Q	G	H	I	L	K	M	F	P	S	T	W	Y	V	
1 A	-inf	1.2040	-inf	-inf	-inf	-inf	-inf	1.2040	-inf	-inf	-inf	1.2040	-inf	-inf	-inf	-inf	-inf	-inf	1.2040	1.8971	
2 A	1.2040	-inf	-inf	1.2040	-inf	-inf	-inf	1.2040	-inf	-inf	-inf	1.2040	1.8971	-inf	-inf	-inf	-inf	-inf	-inf	-inf	
3 A	-inf	1.2040	-inf	-inf	1.2040	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	1.2040	1.2040	1.2040	1.2040	-inf	-inf	
4 A	-inf	1.2040	1.2040	1.2040	1.2040	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	1.8971	-inf	-inf	-inf	-inf	
5 A	1.2040	1.2040	1.2040	-inf	-inf	1.2040	-inf	-inf	-inf	-inf	-inf	1.8971	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	
6 A	-inf	1.2040	1.2040	-inf	-inf	1.2040	-inf	-inf	-inf	-inf	-inf	-inf	1.2040	-inf	-inf	1.2040	-inf	-inf	-inf	1.2040	
7 A	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	1.2040	-inf	1.2040	1.8971	-inf	-inf	-inf	1.2040	1.2040	-inf	-inf	
8 A	1.2040	-inf	-inf

# Cálculo de eficiencia de matriz PSSM

### Cargar datos

In [777]:
secuencias = []  # Lista vacía para guardar las secuencias
puntajesOriginales = []  # Lista vacía para guardar los puntajes del archivo
puntajes_min = float('inf')  # Inicializa el puntaje mínimo con un valor infinito
puntajes_max = float('-inf')  # Inicializa el puntaje máximo con un valor infinitamente pequeño

with open("data/test2.lig", "r") as f:  # Leer archivo de entrada
    linea = f.readline()  # Lee la primera línea del archivo
    while linea != None and linea != "":  # Mientras haya líneas no vacías...
        datos = linea.split()  # Separa la línea por espacio
        secuencia = datos[0]  # El primer elemento es la secuencia
        puntaje = float(datos[1])  # El segundo elemento es el valor original. Se transforma en float.
        secuencias.append(secuencia)  # Agrega la secuencia a la lista de secuencias
        puntajesOriginales.append(puntaje)  # Agrega el puntaje a la lista de puntajes originales
        linea = f.readline()  # Lee la siguiente línea
        puntajes_min = min(puntajes_min, puntaje)
        puntajes_max = max(puntajes_max, puntaje)
    for i in range(len(puntajesOriginales)):
        puntajesOriginales[i] = (puntajesOriginales[i] - puntajes_min) / (puntajes_max - puntajes_min)


### Función para calcular puntajes

In [778]:
# Crea función llamada calcularPuntajes que recibe una lista de entradas y una tabla PSSM
"""def calcularPuntajes(secuencias, pssm):
    puntajes = []  # Crea una lista vacía para los puntajes calculados
    longitud = len(secuencias[0])  # Longitud de las secuencias (se presupone que todas tienen la misma longitud)
    for secuencia in secuencias:  # Recorre una por una las secuencias
        puntaje = 0  # Variable para guardar el puntaje calculado de la secuencia actual
        for i in range(longitud):  # Recorre letra por letra de la secuencia
            letra = secuencia[i]
            puntaje += pssm[i][letra]  # Suma el peso de la matriz para la letra en la posición actual al puntaje total
        puntajes.append(puntaje)  # Agrega el puntaje calculado a la lista de puntajes
    return puntajes


puntajesCalculados = calcularPuntajes(secuencias, pesos)
"""

'def calcularPuntajes(secuencias, pssm):\n    puntajes = []  # Crea una lista vacía para los puntajes calculados\n    longitud = len(secuencias[0])  # Longitud de las secuencias (se presupone que todas tienen la misma longitud)\n    for secuencia in secuencias:  # Recorre una por una las secuencias\n        puntaje = 0  # Variable para guardar el puntaje calculado de la secuencia actual\n        for i in range(longitud):  # Recorre letra por letra de la secuencia\n            letra = secuencia[i]\n            puntaje += pssm[i][letra]  # Suma el peso de la matriz para la letra en la posición actual al puntaje total\n        puntajes.append(puntaje)  # Agrega el puntaje calculado a la lista de puntajes\n    return puntajes\n\n\npuntajesCalculados = calcularPuntajes(secuencias, pesos)\n'

In [779]:
print(puntajesOriginales)

[0.48478339805273596, 0.4436667703499387, 0.5195463974815568, 0.5602148286406328, 0.5610933382454124, 0.3774420469735151, 0.3970539056393785, 0.7265449918633596, 0.6945408181093474, 0.3951548193700319, 0.1726745202829335, 0.6426977020210929, 0.2535936520708735, 0.6391492892983195, 0.43569967017235467, 0.6382139629430207, 0.5948416001360994, 0.4081180574359478, 0.6520019468195772, 0.40202525554702323, 0.6382619349258961, 0.5618816067971525, 0.8051628875687519, 0.5101823705594818, 0.39762348909120393, 0.47569934730618313, 0.5073261063505716, 0.12602355690928851, 0.5183834169735649, 0.7415869098966431, 0.33207751907543853, 0.5953050934126208, 0.3554137105320305, 0.5932001412388541, 0.10550537382152103, 0.41742775740581445, 0.6284247883822035, 0.5107420845844034, 0.5077163474869012, 0.3246617545718904, 0.6795491726329533, 0.3565873136045256, 0.6328815622587582, 0.446701327803753, 0.36346362942512916, 0.4684515854145428, 0.9655176941467988, 0.36243315438111123, 0.443787567483458, 0.62563075

In [780]:
def calcularPuntajes(secuencias, pssm):
    puntajes = []  # Crea una lista vacía para los puntajes calculados
    longitud = len(secuencias[0])  # Longitud de las secuencias (se presupone que todas tienen la misma longitud)
    puntajes_min = float('inf')  # Inicializa el puntaje mínimo con un valor infinito
    puntajes_max = float('-inf')  # Inicializa el puntaje máximo con un valor infinitamente pequeño

    # Calcula el puntaje mínimo y máximo
    for secuencia in secuencias:
        puntaje = 0
        for i in range(longitud):
            letra = secuencia[i]
            puntaje += pssm[i][letra]
        puntajes_min = min(puntajes_min, puntaje)
        puntajes_max = max(puntajes_max, puntaje)

    # Calcula y almacena los puntajes normalizados
    for secuencia in secuencias:
        puntaje = 0
        for i in range(longitud):
            letra = secuencia[i]
            puntaje += pssm[i][letra]

        # Normaliza el puntaje utilizando la fórmula de normalización lineal
        puntaje_norm = (puntaje - puntajes_min) / (puntajes_max - puntajes_min)
        puntajes.append(puntaje_norm)
    return puntajes

puntajesCalculados = calcularPuntajes(secuencias, pesos)

In [781]:
print(puntajesCalculados)

[nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,

### Cálculo de coeficiente

In [782]:
from scipy.stats import pearsonr  # Importar función para calcular PCC

pearsonr(puntajesOriginales, puntajesCalculados)  # El primer valor es el coeficiente. Se puede ignorar el segundo.

ValueError: array must not contain infs or NaNs