# üìÑ Archivos FASTA
Los archivos FASTA son un formato est√°ndar usado en bioinform√°tica para almacenar secuencias de ADN, ARN o prote√≠nas. Son simples, legibles por humanos y ampliamente compatibles con herramientas gen√≥micas.

Cada entrada en un archivo FASTA tiene dos partes:

1. Encabezado: comienza con el s√≠mbolo > seguido del identificador de la secuencia y una descripci√≥n opcional.

2. Secuencia: una o varias l√≠neas que contienen la cadena de nucle√≥tidos (A, T, G, C) o amino√°cidos.

Para hacer la lectura de estos archivos utilizamos la librer√≠a **biopython**, una librer√≠a de Python especializada en manejo y an√°lisis de datos biol√≥gicos. Es open source, gratis y muy usada en la comunidad cient√≠fica.

## 1. Protein Sequence
Los archivos FASTA de prote√≠nas almacenan secuencias de amino√°cidos en formato texto, usando letras que representan cada amino√°cido (como M, L, K, G, etc.).
### 1.1. Archivos pep.abnitio.fa
üîπ`.pep`: contiene secuencias de prote√≠nas (amino√°cidos).

üîπ`.abinitio`: las prote√≠nas fueron predichas computacionalmente desde el genoma bruto, sin guiarse por genes conocidos y sin usar ninguna evidencia externa. Las predicciones son realizadas por programas como GENSCAN, AUGUSTUS y GeneMark fundamentados en Modelos Ocultos de Markov (HMMs).

üîπ`.fa`: es un formato FASTA, usado para representar secuencias biol√≥gicas.

‚ö†Ô∏è Suelen tener **falsos positivos** o errores en el splicing, marcos de lectura, etc.

üß† √ötil para descubrir genes nuevos a√∫n no anotados oficialmente.

**Ejemplo:**

![](ex-pepseq-fa-abnitio.png)

üîπ`GENSCAN00000000001` : Identificador de la predicci√≥n hecha con la herramienta GENSCAN.

üîπ`pep` : Significa que es una secuencia proteica.

üîπ`chromosome:GRCh38:5:122151991:122153085:1`: Versi√≥n del genoma GRCh38, cromosoma 5, en el sentido positivo (1).

üîπ`122151991:122153085`: Posici√≥n inicial y final.

üîπ`transcript_biotype:protein_coding`: Este transcripto codifica una prote√≠na.

üîπ`MERGKKKRISNKLQQTFHHSKEPTF‚Ä¶` : Cada letra representa un amino√°cido (M = metionina, E = glutamato, etc.). 

**Nota:** Existen 20 amino√°cidos proteicos est√°ndar y otros aminoacidos modificados postraduccionalmente (fosforilados, metilados, etc.) que no cambian la secuencia gen√©tica, pero s√≠ la funci√≥n de la prote√≠na.

### Lectura

In [19]:
from Bio import SeqIO

archivo = "ex-proteinseq-abnitio.fa"

for record in SeqIO.parse(archivo, "fasta"):
    print(f"ID: {record.id}\n")
    print(f"Descripci√≥n: {record.description}\n")
    print(f"Secuencia: {record.seq}\n")
    print("-" * 40)

ID: GENSCAN00000000001

Descripci√≥n: GENSCAN00000000001 pep chromosome:GRCh38:5:122151991:122153085:1 transcript:GENSCAN00000000001 transcript_biotype:protein_coding

Secuencia: MERGKKKRISNKLQQTFHHSKEPTFLINQAGLLSSDSYSSLSPETESVNPGENIKTDTQKKRPGTVILSKLSSRRIISESQLSPPVIPARRPGFRVCYICGREFGSQSIAIHEPQCLQKWHIENSKLPKHLRRPEPSKPQSLSSSGSYSLQATNEAAFQSAQAQLLPCESCGRTFLPDHLLVHHRSCKPKGEGPRAPHSNSSDHLTGLKKACSGTPARPRTVICYICGKEFGTLSLPIHEPKCLEKWKMENDRLPVELHQPLPQKPQPLPNAQSSQAGPNQAQLVFCPHCSRIFTSDRLLVHQRSCKTHPYGPKYQNLNLGSKGGLKEYTNSKQQRNRAAPSVTDKVIHATQDALGEPGGALCL

----------------------------------------
ID: GENSCAN00000000002

Descripci√≥n: GENSCAN00000000002 pep chromosome:GRCh38:5:122675795:122676286:1 transcript:GENSCAN00000000002 transcript_biotype:protein_coding

Secuencia: MMNRMAPENFQPDPFINRNDSNMKYEELEALFSQTMFPDRNLQEKLALKRNLLESTGKGLVQELAIQIEAAAAAAAAAAISKASKPDPFIQEECAHLP

----------------------------------------
ID: GENSCAN00000000003

Descripci√≥n: GENSCAN00000000003 pep chromosome:GRCh38:5:121876146:121

### 1.2. Archivos pep.all.fa

üîπ`.pep` : Peptide (prote√≠na).

üîπ`.all` : Incluye *todas* las transcripciones anotadas (de todos los genes y todos los isoformas).

üîπ`.fa`: Formato est√°ndar para secuencias.

Contiene **todas las prote√≠nas conocidas y predichas**, incluyendo predicciones ab initio, genes anotados con evidencia experimental, transcritos conocidos (de RNA-seq, ESTs, etc.).

Es una colecci√≥n m√°s completa y confiable. Incluye lo que viene en `.pep.abinitio.fa`, m√°s otras fuentes de evidencia.

üß† √ötil para tener todas las posibles prote√≠nas de una especie para an√°lisis como alineamientos, anotaciones funcionales, etc.

**Ejemplo:**

![](ex-pepseq-fa-all.png)

üîπ`ENSP00000451468.1` : ID de la prote√≠na en Ensembl.

üîπ`pep` : Significa que es una secuencia proteica.

üîπ`chromosome:GRCh38:14:22462932:22465787:1` : Versi√≥n del genoma GRCh38, cromosoma 14, en el sentido positivo (1).

üîπ`22462932:22465787` : Posici√≥n inicial y final.

üîπ`gene:ENSG00000211829.9` : ID del gen.

üîπ`transcript:ENST00000390477.2` : ID del transcrito que la codifica.

üîπ`gene_biotype:TR_C_gen` : Tipo de gen: T-cell receptor constant (C).

üîπ`gene_symbol:TRDC` : Nombre simb√≥lico del gen: TRDC.

üîπ`description` : Breve descripci√≥n funcional del gen. 

üîπ`T cell receptor delta constant` : Nombre funcional de la prote√≠na: la regi√≥n constante del receptor T delta (TRD). Este receptor es parte del sistema inmune y est√° en ciertas c√©lulas T (las llamadas Œ≥Œ¥ T cells).

üîπ`Source` : Esto dice de d√≥nde viene esta descripci√≥n.

üîπ`HGNC Symbol` :  Indica que ‚ÄúTRDC‚Äù es el s√≠mbolo aprobado por HGNC (**HUGO Gene Nomenclature Committee**, la autoridad oficial para dar nombres a los genes humanos).

üîπ`Acc:HGNC:12253` : es el c√≥digo de acceso √∫nico de ese gen en HGNC.

üîπ`XSQPHTKPSVFVMKNGTNVACLV‚Ä¶` : Secuencia de amino√°cidos. Cada letra representa un amino√°cido.

### Lectura

In [20]:
from Bio import SeqIO

archivo = "ex-proteinseq-all.fa"

for registro in SeqIO.parse(archivo, "fasta"):
    print(f"ID: {registro.id}/n")
    print(f"Descripci√≥n: {registro.description}\n")
    print(f"Secuencia: {registro.seq}\n")
    print(f"Longitud: {len(registro.seq)}\n")
    print("-" * 40)


ID: ENSP00000451468.1/n
Descripci√≥n: ENSP00000451468.1 pep chromosome:GRCh38:14:22462932:22465787:1 gene:ENSG00000211829.9 transcript:ENST00000390477.2 gene_biotype:TR_C_gene transcript_biotype:TR_C_gene gene_symbol:TRDC description:T cell receptor delta constant [Source:HGNC Symbol;Acc:HGNC:12253]

Secuencia: XSQPHTKPSVFVMKNGTNVACLVKEFYPKDIRINLVSSKKITEFDPAIVISPSGKYNAVKLGKYEDSNSVTCSVQHDNKTVHSTDFEVKTDSTDHVKPKETENTKQPSKSCHKPKAIVHTEKVNMMSLTVLGLRMLFAKTVAVNFLLTAKLFFL

Longitud: 154

----------------------------------------
ID: ENSP00000480116.1/n
Descripci√≥n: ENSP00000480116.1 pep chromosome:GRCh38:14:22547506:22552156:1 gene:ENSG00000277734.8 transcript:ENST00000611116.2 gene_biotype:TR_C_gene transcript_biotype:TR_C_gene gene_symbol:TRAC description:T cell receptor alpha constant [Source:HGNC Symbol;Acc:HGNC:12029]

Secuencia: XIQNPDPAVYQLRDSKSSDKSVCLFTDFDSQTNVSQSKDSDVYITDKTVLDMRSMDFKSNSAVAWSNKSDFACANAFNNSIIPEDTFFPSPESSCDVKLVEKSFETDTNLNFQNLSVIGFRILLLKVAGFNLLMTLRLWSS

Longitud: 141

----

**Notebook desarrollado por:** Mar (Grupo Amelia)  
**GitHub:** [@marsilvaa](https://github.com/marsilvaa)   
**Fecha:** Mayo 2025

Este notebook forma parte del trabajo colaborativo del Semillero Investigativo de Modelos Generativos. 
Todos los derechos pertenecen a la organizaci√≥n y sus integrantes.