# bitacora para analizar archivos ab1
tomado de 
http://biopython.org/wiki/ABI_traces

In [None]:
from Bio import SeqIO, SeqRecord
from Bio.Alphabet import IUPAC
from abifpy import Trace
from collections import defaultdict
import matplotlib.pyplot as plt

In [None]:
cd ../data/ab1

In [None]:
ls

Seleccionar un archivo para leerlo

In [None]:
record = SeqIO.read('Nav1.8_(B11)-DG7A_G12_014.ab1', 'abi')

## graficado del electroferograma

In [None]:
record.annotations.keys()
record.annotations['abif_raw'].keys()
channels = ['DATA9', 'DATA10', 'DATA11', 'DATA12']
trace = defaultdict(list)

## qué contiene la variable channels?

In [None]:
for c in channels:
    trace[c] = record.annotations['abif_raw'][c]

In [None]:
plt.plot(trace['DATA9'], color='blue')
plt.plot(trace['DATA10'], color='red')
plt.plot(trace['DATA11'], color='green')
plt.plot(trace['DATA12'], color='yellow')
plt.show()

In [None]:
plt.figure(figsize=(16,4))
plt.plot(trace['DATA9'], color='blue')
plt.plot(trace['DATA10'], color='red')
plt.plot(trace['DATA11'], color='green')
plt.plot(trace['DATA12'], color='yellow')
plt.xlim(0,1000)  # se utiliza valores de 1000 como maximo
plt.show()

In [None]:
plt.figure(figsize=(16,4))
plt.plot(trace['DATA9'], color='blue')
plt.plot(trace['DATA10'], color='red')
plt.plot(trace['DATA11'], color='green')
plt.plot(trace['DATA12'], color='yellow')
plt.xlim(1000,2000)  # se utiliza valores de 1000 como maximo
plt.show()

In [None]:
def graficado(x1,x2):
    plt.figure(figsize=(16,4))
    plt.plot(trace['DATA9'], color='blue')
    plt.plot(trace['DATA10'], color='red')
    plt.plot(trace['DATA11'], color='green')
    plt.plot(trace['DATA12'], color='yellow')
    plt.xlim(x1,x2)  # se utiliza valores de 1000 como maximo
    plt.show()

In [None]:
graficado (2000,3000)

In [None]:
intervalos = range(1000,6000,1000)
intervalos

In [None]:
for intervalo in intervalos:
    graficado (intervalo-1000,intervalo)

# Obtencion de la secuencia eliminando valores de baja calidad 
# Trimming
#### tomado de 
#### https://github.com/bow/abifpy

In [None]:
rec= Trace("Nav1.8_(B11)-DG7A_G12_014.ab1")

In [None]:
rec1= Trace('Nav1.8_(B11)-DG7A_G12_014.ab1',  trimming=True)

## Comparando las secuencias de manera visual

In [None]:
print(rec.seq, "\n", rec1.seq)

## Observando los valores de calidad

In [None]:
rec.qual

In [None]:
rec1.qual

## cuántos nucleotidos eliminó el recorte (trimming)?

In [None]:
print (len(rec.seq), len(rec1.seq))

## alineamiento de las secuencias para observar en donde se cortaron las secuencias

In [None]:
from Bio import pairwise2
from Bio.SubsMat.MatrixInfo import blosum62

In [None]:
alignments = pairwise2.align.globalds(rec.seq[:93],rec1.seq[:84], blosum62, -10, -0.5)
print(pairwise2.format_alignment(*alignments[0]))

In [None]:
alignments = pairwise2.align.globalds(rec.seq,rec1.seq, blosum62, -10, -0.5)
print(pairwise2.format_alignment(*alignments[0]))

In [None]:
alignments = pairwise2.align.globalds(rec.seq[len(rec.seq)-113:],rec1.seq[len(rec1.seq)-100:], blosum62, -10, -0.5)
print(pairwise2.format_alignment(*alignments[0]))

In [None]:
rec1.id

In [None]:
print(rec1.id, rec1.seq )

## para reconstruir la secuencia y poder guardarla

In [None]:
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord

In [None]:
secuencia = SeqRecord(Seq((rec1.seq)), id=rec1.id, description=rec1.id)
secuencia

In [None]:
pwd

In [None]:
SeqIO.write(secuencia, "../fasta/Nav1.2F.fa", "fasta")


In [None]:
pwd

In [None]:
cd ../ab2

In [None]:
ls

### Se tienen 10 archivos que hay que procesar

### se utilizan los comandos del sistema operativo para leer archivos de directorios

In [None]:
import os#, sys

In [None]:
lista = os.listdir(path ="./")
lista

In [None]:
n=0
for row in lista:
    if row[:1]!=".":
        n+=1
        print (row)
print (n, "archivos")


# Ejercicio:
### Utilizandola información de la presente bitácora haga un ciclo (loop) para recortar las secuencias eliminando las regiones de baja calidad
### guarde los archivos de manera individual con extensión fasta

In [None]:
n=0
for row in lista:
    if row[:1]!=".":
        n+=1
        print (row, end ="\t")
        rec1= Trace(row,  trimming=True)
        secuencia = SeqRecord(Seq((rec1.seq)), id=rec1.id, description=rec1.id)
        archivo= "../fasta/"+ row[:-4] +".fasta"
        print (archivo)
        SeqIO.write(secuencia, archivo, "fasta")
print (n, "archivos")




## guarde todos los archivos en un solo archivo fasta

In [None]:
secuencias= []
n=0
for row in lista:
    if row[:1]!=".":
        n+=1
        print (row)
        rec1= Trace(row,  trimming=True)
        secuencia = SeqRecord(Seq(rec1.seq,
           IUPAC.unambiguous_dna), id=rec1.id, description=rec1.id)
        secuencias.append(secuencia)
archivo= "../fasta/secuencias10.fasta"
print (archivo)
SeqIO.write(secuencias, archivo, "fasta")
print (n, "archivos")
#secuencias

## corrobore el archivo secuencias.fasta

In [None]:
!grep ">" ../fasta/secuencias10.fasta 


### Si solo desea ver el número de secuencias guardadas

In [None]:
!grep ">" ../fasta/secuencias10.fasta |wc -l


## de qué manera podría cambiarle los nombres de descripción a las secuencias?

## utilice el Mega y compare sus resultados

## guarde el archivo en formato del GenBank

In [None]:
mkdir ../genbank

In [None]:
SeqIO.write(secuencias, "../genbank/secuencias.gb", "genbank")


### revise el archivo ../genbank/secuencias.gb, explique qué observa

In [None]:
!head -5 ../genbank/secuencias.gb