## Sobre la base de datos

Está relacionada al trabajo:
[An advanced approach to identify antimicrobial peptides and their function types for penaeus through machine learning strategies](https://pmc.ncbi.nlm.nih.gov/articles/PMC6557738/#Abs1)

Contiene registros positivos de antifúngicos.

Usaremos la biblioteca `Biopython` que es muy útil para trabajar con secuencias biológicas.

In [1]:
%pip install biopython

Collecting biopython
  Downloading biopython-1.86-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl.metadata (13 kB)
Downloading biopython-1.86-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl (3.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.2/3.2 MB[0m [31m32.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: biopython
Successfully installed biopython-1.86


In [2]:
from Bio import SeqIO
import pandas as pd

In [3]:
fasta_pos = '/content/antifungal peptide_20180115.fasta'

## Secuencias positivas

In [4]:
data = []
try:
    for record in SeqIO.parse(fasta_pos, "fasta"):
        data.append({
            "ID": record.id,
            "Description": record.description,
            "Sequence": str(record.seq)
        })

    df_pos = pd.DataFrame(data)
    display(df_pos.head())

except FileNotFoundError:
    print(f"Error: El archivo no se encuentra en la ruta especificada: {fasta_pos}")
except Exception as e:
    print(f"Ocurrió un error al parsear el archivo fasta: {e}")

Unnamed: 0,ID,Description,Sequence
0,AP00001,AP00001,GLWSKIKEVGKEAAKAAAKAAGKAALGAVSEAV
1,AP00003,AP00003,DGVKLCDVPSGTWSGHCGSSSKCSQQCKDREHFAYGGACHYQFPSV...
2,AP00004,AP00004,NLCERASLTWTGNCGNTGHCDTQCRNWESAKHGACHKRGNWKCFCYFDC
3,AP00012,AP00012,GLFDIIKKIAESI
4,AP00013,AP00013,GLFDIIKKIAESF


In [5]:
# Seleccionar las secuencias positivas
pos = df_pos[['Sequence']]

# Agregar una columna de label (si tiene actividad antifúngica o no)
pos['label'] = 1

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pos['label'] = 1


## Concatenar ambas secuencias

In [6]:
pos.head()

Unnamed: 0,Sequence,label
0,GLWSKIKEVGKEAAKAAAKAAGKAALGAVSEAV,1
1,DGVKLCDVPSGTWSGHCGSSSKCSQQCKDREHFAYGGACHYQFPSV...,1
2,NLCERASLTWTGNCGNTGHCDTQCRNWESAKHGACHKRGNWKCFCYFDC,1
3,GLFDIIKKIAESI,1
4,GLFDIIKKIAESF,1


In [8]:
pos.describe()

Unnamed: 0,label
count,1047.0
mean,1.0
std,0.0
min,1.0
25%,1.0
50%,1.0
75%,1.0
max,1.0


In [9]:
pos.to_csv('MAMP-Pred_labeled.csv', index=False, header=True)