In [None]:
import numpy as np
import pandas as pd

# Definimos el alfabeto de aminoácidos (20 aminoácidos estándar)
amino_acids = 'ARNDCQEGHILKMFPSTWYV'
amino_to_index = {amino_acid: idx for idx, amino_acid in enumerate(amino_acids)}

# Función para convertir un péptido en su representación one-hot con padding
def peptide_to_one_hot(peptide, max_length=5):
    # Creamos una matriz de ceros con dimensiones (max_length, número de aminoácidos)
    one_hot_matrix = np.zeros((max_length, len(amino_acids)), dtype=int)

    # Llenamos la matriz con la representación one-hot de cada aminoácido en el péptido
    for i, amino_acid in enumerate(peptide):
        if i < max_length:  # Evitamos sobrepasar el límite de max_length
            one_hot_matrix[i, amino_to_index[amino_acid]] = 1

    return one_hot_matrix

# Ejemplo 1: Péptido de longitud 2
peptide_2 = "AC"
one_hot_2 = peptide_to_one_hot(peptide_2, max_length=5)

# Ejemplo 2: Péptido de longitud 5
peptide_5 = "ACDEG"
one_hot_5 = peptide_to_one_hot(peptide_5, max_length=5)

# Convertimos las matrices a dataframes para visualización
one_hot_2_df = pd.DataFrame(one_hot_2, columns=list(amino_acids))
one_hot_5_df = pd.DataFrame(one_hot_5, columns=list(amino_acids))

one_hot_2_df, one_hot_5_df


(   A  R  N  D  C  Q  E  G  H  I  L  K  M  F  P  S  T  W  Y  V
 0  1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
 1  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
 2  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
 3  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
 4  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0,
    A  R  N  D  C  Q  E  G  H  I  L  K  M  F  P  S  T  W  Y  V
 0  1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
 1  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
 2  0  0  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
 3  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0
 4  0  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  0  0)

In [None]:
# Ejemplo de un péptido de longitud 50 con repeticiones de algunos aminoácidos
peptide_50 = "ACDEFGHIKLMNPQRSTVWY" * 2 + "ACDEFGHIKL"

# Convertimos el péptido de longitud 50 a su representación one-hot
one_hot_50 = peptide_to_one_hot(peptide_50, max_length=50)

# Convertimos la matriz a dataframe para visualizarla mejor
one_hot_50_df = pd.DataFrame(one_hot_50, columns=list(amino_acids))
one_hot_50_df.head(50)  # Mostramos solo las primeras 10 filas para visualizar mejor


Unnamed: 0,A,R,N,D,C,Q,E,G,H,I,L,K,M,F,P,S,T,W,Y,V
0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0
5,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0
6,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0
9,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
