# 📄 Archivos FASTA
Los archivos FASTA son un formato estándar usado en bioinformática para almacenar secuencias de ADN, ARN o proteínas. Son simples, legibles por humanos y ampliamente compatibles con herramientas genómicas.

Cada entrada en un archivo FASTA tiene dos partes:

1. Encabezado: comienza con el símbolo > seguido del identificador de la secuencia y una descripción opcional.

2. Secuencia: una o varias líneas que contienen la cadena de nucleótidos (A, T, G, C) o aminoácidos.

Para hacer la lectura de estos archivos utilizamos la librería **biopython**, una librería de Python especializada en manejo y análisis de datos biológicos. Es open source, gratis y muy usada en la comunidad científica.

## 1. Protein Sequence
Los archivos FASTA de proteínas almacenan secuencias de aminoácidos en formato texto, usando letras que representan cada aminoácido (como M, L, K, G, etc.).
### 1.1. Archivos pep.abnitio.fa
🔹`.pep`: contiene secuencias de proteínas (aminoácidos).

🔹`.abinitio`: las proteínas fueron predichas computacionalmente desde el genoma bruto, sin guiarse por genes conocidos y sin usar ninguna evidencia externa. Las predicciones son realizadas por programas como GENSCAN, AUGUSTUS y GeneMark fundamentados en Modelos Ocultos de Markov (HMMs).

🔹`.fa`: es un formato FASTA, usado para representar secuencias biológicas.

⚠️ Suelen tener **falsos positivos** o errores en el splicing, marcos de lectura, etc.

🧠 Útil para descubrir genes nuevos aún no anotados oficialmente.

**Ejemplo:**

![](ex-pepseq-fa-abnitio.png)

🔹`GENSCAN00000000001` : Identificador de la predicción hecha con la herramienta GENSCAN.

🔹`pep` : Significa que es una secuencia proteica.

🔹`chromosome:GRCh38:5:122151991:122153085:1`: Versión del genoma GRCh38, cromosoma 5, en el sentido positivo (1).

🔹`122151991:122153085`: Posición inicial y final.

🔹`transcript_biotype:protein_coding`: Este transcripto codifica una proteína.

🔹`MERGKKKRISNKLQQTFHHSKEPTF…` : Cada letra representa un aminoácido (M = metionina, E = glutamato, etc.). 

**Nota:** Existen 20 aminoácidos proteicos estándar y otros aminoacidos modificados postraduccionalmente (fosforilados, metilados, etc.) que no cambian la secuencia genética, pero sí la función de la proteína.

### Lectura

In [9]:
from Bio import SeqIO

archivo = "ex-proteinseq-abnitio.fa"
records_iterator = SeqIO.parse(archivo, "fasta")

for i in range(4):
    record = next(records_iterator)
    print(f"ID: {record.id}\n")
    print(f"Descripción: {record.description}\n")
    print(f"Secuencia: {record.seq}\n")
    print(f"Longitud: {len(record.seq)}\n")
    print("-" * 40)

ID: GENSCAN00000000001

Descripción: GENSCAN00000000001 pep chromosome:GRCh38:5:122151991:122153085:1 transcript:GENSCAN00000000001 transcript_biotype:protein_coding

Secuencia: MERGKKKRISNKLQQTFHHSKEPTFLINQAGLLSSDSYSSLSPETESVNPGENIKTDTQKKRPGTVILSKLSSRRIISESQLSPPVIPARRPGFRVCYICGREFGSQSIAIHEPQCLQKWHIENSKLPKHLRRPEPSKPQSLSSSGSYSLQATNEAAFQSAQAQLLPCESCGRTFLPDHLLVHHRSCKPKGEGPRAPHSNSSDHLTGLKKACSGTPARPRTVICYICGKEFGTLSLPIHEPKCLEKWKMENDRLPVELHQPLPQKPQPLPNAQSSQAGPNQAQLVFCPHCSRIFTSDRLLVHQRSCKTHPYGPKYQNLNLGSKGGLKEYTNSKQQRNRAAPSVTDKVIHATQDALGEPGGALCL

Longitud: 364

----------------------------------------
ID: GENSCAN00000000002

Descripción: GENSCAN00000000002 pep chromosome:GRCh38:5:122675795:122676286:1 transcript:GENSCAN00000000002 transcript_biotype:protein_coding

Secuencia: MMNRMAPENFQPDPFINRNDSNMKYEELEALFSQTMFPDRNLQEKLALKRNLLESTGKGLVQELAIQIEAAAAAAAAAAISKASKPDPFIQEECAHLP

Longitud: 98

----------------------------------------
ID: GENSCAN00000000003

Descripción: GENSCAN00000000003 pep chromos

### 1.2. Archivos pep.all.fa

🔹`.pep` : Peptide (proteína).

🔹`.all` : Incluye *todas* las transcripciones anotadas (de todos los genes y todos los isoformas).

🔹`.fa`: Formato estándar para secuencias.

Contiene **todas las proteínas conocidas y predichas**, incluyendo predicciones ab initio, genes anotados con evidencia experimental, transcritos conocidos (de RNA-seq, ESTs, etc.).

Es una colección más completa y confiable. Incluye lo que viene en `.pep.abinitio.fa`, más otras fuentes de evidencia.

🧠 Útil para tener todas las posibles proteínas de una especie para análisis como alineamientos, anotaciones funcionales, etc.

**Ejemplo:**

![](ex-pepseq-fa-all.png)

🔹`ENSP00000451468.1` : ID de la proteína en Ensembl.

🔹`pep` : Significa que es una secuencia proteica.

🔹`chromosome:GRCh38:14:22462932:22465787:1` : Versión del genoma GRCh38, cromosoma 14, en el sentido positivo (1).

🔹`22462932:22465787` : Posición inicial y final.

🔹`gene:ENSG00000211829.9` : ID del gen.

🔹`transcript:ENST00000390477.2` : ID del transcrito que la codifica.

🔹`gene_biotype:TR_C_gen` : Tipo de gen: T-cell receptor constant (C).

🔹`gene_symbol:TRDC` : Nombre simbólico del gen: TRDC.

🔹`description` : Breve descripción funcional del gen. 

🔹`T cell receptor delta constant` : Nombre funcional de la proteína: la región constante del receptor T delta (TRD). Este receptor es parte del sistema inmune y está en ciertas células T (las llamadas γδ T cells).

🔹`Source` : Esto dice de dónde viene esta descripción.

🔹`HGNC Symbol` :  Indica que “TRDC” es el símbolo aprobado por HGNC (**HUGO Gene Nomenclature Committee**, la autoridad oficial para dar nombres a los genes humanos).

🔹`Acc:HGNC:12253` : es el código de acceso único de ese gen en HGNC.

🔹`XSQPHTKPSVFVMKNGTNVACLV…` : Secuencia de aminoácidos. Cada letra representa un aminoácido.

### Lectura

In [10]:
from Bio import SeqIO

archivo = "ex-proteinseq-all.fa"
records_iterator = SeqIO.parse(archivo, "fasta")

for i in range(4):
    record = next(records_iterator)
    print(f"ID: {record.id}/n")
    print(f"Descripción: {record.description}\n")
    print(f"Secuencia: {record.seq}\n")
    print(f"Longitud: {len(record.seq)}\n")
    print("-" * 40)

ID: ENSP00000451468.1/n
Descripción: ENSP00000451468.1 pep chromosome:GRCh38:14:22462932:22465787:1 gene:ENSG00000211829.9 transcript:ENST00000390477.2 gene_biotype:TR_C_gene transcript_biotype:TR_C_gene gene_symbol:TRDC description:T cell receptor delta constant [Source:HGNC Symbol;Acc:HGNC:12253]

Secuencia: XSQPHTKPSVFVMKNGTNVACLVKEFYPKDIRINLVSSKKITEFDPAIVISPSGKYNAVKLGKYEDSNSVTCSVQHDNKTVHSTDFEVKTDSTDHVKPKETENTKQPSKSCHKPKAIVHTEKVNMMSLTVLGLRMLFAKTVAVNFLLTAKLFFL

Longitud: 154

----------------------------------------
ID: ENSP00000480116.1/n
Descripción: ENSP00000480116.1 pep chromosome:GRCh38:14:22547506:22552156:1 gene:ENSG00000277734.8 transcript:ENST00000611116.2 gene_biotype:TR_C_gene transcript_biotype:TR_C_gene gene_symbol:TRAC description:T cell receptor alpha constant [Source:HGNC Symbol;Acc:HGNC:12029]

Secuencia: XIQNPDPAVYQLRDSKSSDKSVCLFTDFDSQTNVSQSKDSDVYITDKTVLDMRSMDFKSNSAVAWSNKSDFACANAFNNSIIPEDTFFPSPESSCDVKLVEKSFETDTNLNFQNLSVIGFRILLLKVAGFNLLMTLRLWSS

Longitud: 141

------

**Notebook desarrollado por:** Mar (Grupo Amelia)  
**GitHub:** [@marsilvaa](https://github.com/marsilvaa)   
**Fecha:** Mayo 2025

Este notebook forma parte del trabajo colaborativo del Semillero Investigativo de Modelos Generativos. 
Todos los derechos pertenecen a la organización y sus integrantes.