# ANÁLISIS ARCHIVO FASTA

En este código desarrollamos dos formas de realizar el análisis de un archivo FASTA:

* Mediante la librería Bio (Biopython)
* Sin utilización de librerías bioinformáticas

## Mediante la librería Bio (Biopython)

### Entorno de trabajo
Instalamos la librería Bio. Si la tuviésemos instalada podemos actualizarla mediante el comando:

`pip install biopython --upgrade`

In [3]:
# Instalamos la librería Bio
pip install biopython

Note: you may need to restart the kernel to use updated packages.Defaulting to user installation because normal site-packages is not writeable
Collecting biopython
  Downloading biopython-1.81-cp311-cp311-win_amd64.whl (2.7 MB)
     ---------------------------------------- 0.0/2.7 MB ? eta -:--:--
      --------------------------------------- 0.1/2.7 MB 1.1 MB/s eta 0:00:03
     -- ------------------------------------- 0.2/2.7 MB 1.7 MB/s eta 0:00:02
     ---- ----------------------------------- 0.3/2.7 MB 2.1 MB/s eta 0:00:02
     ----- ---------------------------------- 0.4/2.7 MB 1.9 MB/s eta 0:00:02
     ------- -------------------------------- 0.5/2.7 MB 2.1 MB/s eta 0:00:02
     --------- ------------------------------ 0.6/2.7 MB 2.2 MB/s eta 0:00:01
     ---------- ----------------------------- 0.7/2.7 MB 2.2 MB/s eta 0:00:01
     ------------- -------------------------- 0.9/2.7 MB 2.5 MB/s eta 0:00:01
     ---------------- ----------------------- 1.1/2.7 MB 2.7 MB/s eta 0:00:01


[notice] A new release of pip is available: 23.0.1 -> 23.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [1]:
# Importamos la librería Bio
import Bio

Un fichero FASTA es un formato comúnmente utilizado para almacenar secuencias de ácidos nucleicos (ADN o ARN) o secuencias de aminoácidos (proteínas). El nombre "FASTA" proviene de la primera línea del fichero, que comienza con el símbolo ">" seguido de un identificador único para la secuencia.

Aquí tienes un ejemplo de cómo se vería un fichero FASTA:

Un fichero FASTA es un simple fichero de texto plano con el siguiente formato:

>`>Secuencia_1`<br>
>`ATGCTGATCGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG`
>`CTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC`<br>
>`>Secuencia_2`<br>
>`ATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA`
>`TCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGAT`
>`CGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATC`

La primera línea con el símbolo '>' nos indica un comentario en el que habitualmente se incluye algún tipo de identificador. Es posible que esta línea no aparezca puesto que no es obligatoria. A continuación, tenemos la secuencia hasta el próximo símbolo '>' o hasta que el fichero termine. Habitualmente, las líneas tienen un tamaño inferior a los 80 caracteres (por razones históricas de legibilidad en las antiguas terminales de 80 caracteres de tamaño).
En el caso de una secuencia genómica, solo tendríamos alguna de las cuatro posibles bases (G, A, T o C) en caso de ADN o bien las mismas bases a excepción de U en vez de T para el ARN. Podemos encontrar saltos de secuencia (símbolo '-') u otros casos. En el siguiente link encontramos una lista más exhaustiva de estos: https://en.wikipedia.org/wiki/FASTA_format.

### Lectura del fichero Fasta

En el directorio `data` tenemos un fichero FASTA de ejemplo, `multipleSeqs.fa`. Vamos a leerlo con BioPython:

In [2]:
# Path del fichero
fastaFile = 'data/multipleSeqs.fa'

In [3]:
# Hacemos uso del módulo SeqIO
from Bio import SeqIO

# Obtenemos todas las secuencias que encuentre en el fichero, indicando el 
# tipo de formato 'fasta':
records = SeqIO.parse(fastaFile, "fasta")
for seq_record in records:
    # Para cada secuencia, imprimiremos su id y su longitud
    print('ID: "', seq_record.id, '" - longitud: ', len(seq_record))

ID: " NT_033779.5 " - longitud:  134
ID: " NC_004353.4 " - longitud:  125
ID: " NC_024512.1 " - longitud:  81
ID: " NT_037436.4 " - longitud:  210
ID: " NT_033777.3 " - longitud:  70


Cada uno de los `seq_record` que leemos es un objeto `SeqRecord` que contiene un objeto de tipo `Seq` (una secuencia en BioPython) junto a otros metadatos, como su id, por ejemplo.
 
Para contar el número de nucleótidos de cada tipo:

In [4]:
# Hacemos uso del módulo SeqIO
from Bio import SeqIO

records = SeqIO.parse(fastaFile, "fasta")
for i, seq_record in enumerate(records):
    print("Secuencia %d:" % i)
    print("Número de A's: %d" % seq_record.seq.count("A"))
    print("Número de C's: %d" % seq_record.seq.count("C"))
    print("Número de G's: %d" % seq_record.seq.count("G"))
    print("Número de T's: %d" % seq_record.seq.count("T"))
    print()

Secuencia 0:
Número de A's: 39
Número de C's: 26
Número de G's: 29
Número de T's: 40

Secuencia 1:
Número de A's: 46
Número de C's: 0
Número de G's: 0
Número de T's: 79

Secuencia 2:
Número de A's: 32
Número de C's: 17
Número de G's: 10
Número de T's: 22

Secuencia 3:
Número de A's: 68
Número de C's: 34
Número de G's: 49
Número de T's: 59

Secuencia 4:
Número de A's: 21
Número de C's: 18
Número de G's: 22
Número de T's: 9



### Sin utilización de librerías bioinformáticas

Desarrollamos el código para contar el número de bases como en el caso anterior, pero **SIN hacer uso de la librería BioPython**. El output tiene que ser idéntico al del desarrollo anterior.

In [5]:
# Sin librerías

# Importamos la librería os para el manejo de ficheros
import os

# Creamos un diccionario donde incluir los datos del fichero
secuencia = {}

# Creamos una variable para nombrar la secuencia
# -1 para que la secuencia comience por 0
clave = -1

# Leemos el fichero
with open(fastaFile) as fichero:
    
    # Recorremos las líneas del fichero
    for linea in fichero:
        # Quitamos los saltos de líneas
            linea = linea.rstrip(os.linesep)
            # Si la línea empieza por >
            if linea.startswith('>'):
                # clave = linea[1:] Si quisiéramos el nombre de la secuencia
                # Sumo aquí por que luego puede haber varias líneas con nucleótidos
                clave += 1
                secuencia[clave] = ''
            # Las líneas a manipular
            else:
                secuencia[clave] += linea
                
# Extraemos la información de nuestro diccionario
for clave, valor in secuencia.items():
    print("Secuencia %s:" % clave)
    print("Número de A's: %d" % valor.count("A"))
    print("Número de C's: %d" % valor.count("C"))
    print("Número de G's: %d" % valor.count("G"))
    print("Número de T's: %d" % valor.count("T"))
    print()

Secuencia 0:
Número de A's: 39
Número de C's: 26
Número de G's: 29
Número de T's: 40

Secuencia 1:
Número de A's: 46
Número de C's: 0
Número de G's: 0
Número de T's: 79

Secuencia 2:
Número de A's: 32
Número de C's: 17
Número de G's: 10
Número de T's: 22

Secuencia 3:
Número de A's: 68
Número de C's: 34
Número de G's: 49
Número de T's: 59

Secuencia 4:
Número de A's: 21
Número de C's: 18
Número de G's: 22
Número de T's: 9

