# Bitácora para analizar archivos ab1
el graficado del electroferograma se tomó de 
http://biopython.org/wiki/ABI_traces

In [None]:
from Bio import SeqIO, SeqRecord, pairwise2
from Bio.Alphabet import IUPAC
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord
from Bio.SubsMat.MatrixInfo import blosum62
from collections import defaultdict
import matplotlib.pyplot as plt
from Bio.Align import AlignInfo


In [None]:
ls /Users/migueldelrio/Desktop/data/bioinformatica_aplicada/ab1/

In [None]:
cd /Users/migueldelrio/Desktop/data/bioinformatica_aplicada/ab1/

## Definición de la función de graficado de los datos del electroferograma

In [None]:
def graficado(x1,x2):
    plt.figure(figsize=(16,4))
    plt.plot(trace['DATA9'], color='blue')
    plt.plot(trace['DATA10'], color='red')
    plt.plot(trace['DATA11'], color='green')
    plt.plot(trace['DATA12'], color='yellow')
    plt.xlim(x1,x2)  # se utiliza valores de 1000 como maximo
    plt.show()

In [None]:
ls

#### Seleccionar un archivo para leerlo
La primera variable `record` tendrá la secuencia original, la segunda `record_trim` la secuencia con la baja calidad eliminada

In [None]:
record = SeqIO.read('Nav1.8_(B11)-DG7A_G12_014.ab1', 'abi')
recordtrimmed = SeqIO.read('Nav1.8_(B11)-DG7A_G12_014.ab1', 'abi-trim')

#### se observan las secuencias obtenidas

In [None]:
print(record.seq, "\n", recordtrimmed.seq, "\n")

print (len(record.seq), len(recordtrimmed.seq), "se eliminaron", 
       len(record.seq)-len(recordtrimmed.seq), "nucleótidos")

## alineamiento de las secuencias para observar en donde se cortaron las secuencias

In [None]:
alignments = pairwise2.align.globalds(record.seq,recordtrimmed.seq, blosum62, -10, -0.5)
print(pairwise2.format_alignment(*alignments[0]))

## secuencias con el iniciador antisentido (reverse)

In [None]:
record_R = SeqIO.read('Nav1.8_(D12)-RW01_H03_015.ab1', 'abi')
recordtrimmed_R = SeqIO.read('Nav1.8_(D12)-RW01_H03_015.ab1', 'abi-trim')

In [None]:
print(record_R.seq, "\n", recordtrimmed_R.seq, "\n")
print (len(record_R.seq), len(recordtrimmed_R.seq), "se eliminaron", 
       len(record_R.seq)-len(recordtrimmed_R.seq), "nucleótidos")

## para guardar las secuencias en archivos separados

In [None]:
SeqIO.write(recordtrimmed, "../fasta/Nav1_2F.fa", "fasta")
SeqIO.write(recordtrimmed_R, "../fasta/Nav1_2R.fa", "fasta")

In [None]:
ls ../fasta/Nav1_*

# Obtención de la secuencia consenso

### Primeramente se alinean las secuencias recortadas

In [None]:
alignments = pairwise2.align.globalds(recordtrimmed.seq,recordtrimmed_R.seq.reverse_complement(), blosum62, -10, -0.5)

### Este procedimiento puede generar más de una secuencias, por lo que es conveniente revisar el
### número de alineamientos

In [None]:
len(alignments)

### Se grafican los alineamientos

In [None]:
for row in range(len(alignments)):
    print ("Alineamiento", row)
    print(pairwise2.format_alignment(*alignments[row]), "\n")
    

### Se verifica cuál es el más adecuado y se selecciona una secuencia consenso

## La obtención de la secuencia consenso se hace a mano. Seleccione el área en donde tenga al menos dos nucleótidos y péguelos en la siguiente variable `secuencia`

In [None]:
secuencia = "ACTTCACCCCAATCATCTGTCCCACCTTAGGCGGCTGGCTCCAAAAGGTTACCTCACCGACTTCGGGTGTTACAAACTCTCGTGGTGTGACGGGCGGTGTGTACAAGGCCCGGGAACGTATTCACCGCGGCATGCTGATCCGCGATTACTAGCGATTCCAGCTTCATGTAGGCGAGTTGCAGCTTACAATCCGAACTGAGAACGGTTTTATGGGATTGGCTAAACCTCGCGGTCTTGCTGCCCTTTGTACCGTCCATTGTAGCACGTGTGTAGC"


### Se puede camibar el nombre y la descripcion de la secuencia o cambiarlo por el texto deseado

In [None]:
nombreid = record.id
nombredes = record.id

### Para guardar la secuencia consenso, primero se reconstruye y después se verifica

In [None]:
consenso = SeqRecord(Seq(secuencia), id=nombreid, description=nombredes)
print (consenso.id, consenso.description, consenso.seq[:30])

In [None]:
SeqIO.write(consenso, "../fasta/Nav1_2.fa", "fasta")


In [None]:
ls ../fasta/Nav1_*

# _Blast_ de la secuencia

In [None]:
cd ../fasta/

In [None]:
ls Nav1_*

In [None]:
%%bash
export BLASTDB=~/Desktop/bigdata/16SMicrobial/
date  
blastn -query Nav1_2.fa \
-db ~/Desktop/bigdata/16SMicrobial/16SMicrobial \
-out Nav1_2.tab -evalue 1E-6 -max_target_seqs 1 \
-num_threads 2 -outfmt "6 std sskingdoms stitle staxids sscinames scomnames sblastnames" 
date

In [None]:
!head Nav1_2.tab

## graficado del electroferograma

In [None]:
record.annotations.keys()
record.annotations['abif_raw'].keys()
channels = ['DATA9', 'DATA10', 'DATA11', 'DATA12']
trace = defaultdict(list)

In [None]:
for c in channels:
    trace[c] = record.annotations['abif_raw'][c]

intervalos = range(1000,len(trace['DATA9'])+1000,1000)
for intervalo in intervalos:
    graficado (intervalo-1000,intervalo)

In [None]:
for c in channels:
    trace[c] = record_R.annotations['abif_raw'][c]

intervalos = range(1000,len(trace['DATA9'])+1000,1000)
for intervalo in intervalos:
    graficado (intervalo-1000,intervalo)

# En caso de tener varios archivos a procesar se puede usar el siguiente procedimiento

### se utilizan los comandos del sistema operativo para leer archivos de directorios

In [None]:
cd /Users/migueldelrio/Desktop/bioinformatica2019/data/ab2/

In [None]:
import os#, sys

In [None]:
pwd

In [None]:
lista = os.listdir(path ="/Users/migueldelrio/Desktop/bioinformatica2019/data/ab2")
lista

### Se verifican los archivos a procesar

In [None]:
n=0
for row in lista:
    if row[:1]!="." and row[-3:]=="ab1":
        n+=1
        print (row)
print (n, "archivos")


### para guardar los archivos de manera individual con extensión fasta

In [None]:
n=0
for row in lista:
    if row[:1]!=".":
        n+=1
        print (row, end ="\t")
        rec1= Trace(row,  trimming=True)
        secuencia = SeqRecord(Seq((rec1.seq)), id=rec1.id, description=rec1.id)
        archivo= "../fasta/"+ row[:-4] +".fasta"
        print (archivo)
        SeqIO.write(secuencia, archivo, "fasta")
print (n, "archivos")



### para guardar todos los archivos en un solo archivo fasta

In [None]:
secuencias= []
n=0
for row in lista:
    if row[:1]!=".":
        n+=1
        print (row)
        rec1= Trace(row,  trimming=True)
        secuencia = SeqRecord(Seq(rec1.seq,
           IUPAC.unambiguous_dna), id=rec1.id, description=rec1.id)
        secuencias.append(secuencia)
archivo= "../fasta/secuencias.fasta"
print (archivo)
SeqIO.write(secuencias, archivo, "fasta")
print (n, "archivos")


## corrobore el archivo secuencias.fasta

## de qué manera podría cambiarle los nombres de descripción a las secuencias?

## utilice el Mega y compare sus resultados

## guarde el archivo en formato del GenBank

In [None]:
SeqIO.write(secuencias, "../genbank/secuencias.gb", "genbank")


### revise el archivo ../genbank/secuencias.gb, explique qué observa

In [None]:
!head -5 ../genbank/secuencias.gb