# Bitacora para el manejo de secuencias fasta y busqueda basica de *Blastn*


## Para el siguiente ejercicio es necesario tener el Blast+ instalado en la computadora
https://www.ncbi.nlm.nih.gov/guide/data-software/
## y tener instalada las bases de datos 16s microbiano de taxonomica

In [None]:
ls ~/Desktop/bigdata/16SMicrobial/

In [None]:
pwd

In [None]:
cd ../data/fasta/

In [None]:
ls

In [None]:
!head secuencias.fasta

In [None]:
# cuantas secuencias hay?
# utilice el comando de linux ">" para saber cuantas secuencias se tienen
!grep ">" secuencias_comp.fas |wc -l

# Blastn

## Revise el manual del Blast y describa qué realizan los siguientes comandos y describalos en las siguientes celdas
https://www.ncbi.nlm.nih.gov/books/NBK279690/

en pdf

https://www.ncbi.nlm.nih.gov/books/NBK279690/pdf/Bookshelf_NBK279690.pdf


In [None]:
%%bash
export BLASTDB=~/Desktop/bigdata/16SMicrobial/
date  
blastn -query secuencias_comp.fas -db ~/Desktop/bigdata/16SMicrobial/16SMicrobial \
-out secuencias.tab -evalue 1E-6 -max_target_seqs 1 \
-num_threads 2 -outfmt "6 std sskingdoms stitle staxids sscinames scomnames sblastnames" 
date

### Revise el manual del Blast y describa qué valores obtendrá en el archivo de salida
busque '-outfmt'

In [None]:
ls 

In [None]:
!head secuencias.tab

## se requiere visualizar los datos, para ello se utiliza el manejo de bases de datos que tiene Python

### se cargan la paquetería correspondientes

In [None]:
from pandas import Series, DataFrame
import pandas as pd
from Bio import SeqIO, AlignIO, SeqRecord

###  Blast da los resultados sin nombre de columnas, por lo que se asignan a la variable "encabezado"

In [None]:
encabezado =("qseqid", "sseqid", "pident", "length", "mismatch", "gapopen","qstart", 
             "qend", "sstart","send", "evalue", "bitscore", "sskingdoms", "stitle", 
             "staxids", "sscinames", "scomnames", "sblastnames")

### Se lee el archivo de salida y se asigna a la variable "ftab", con ello se pueden ver los resultados

In [None]:
ftab=pd.read_table("secuencias.tab", header=None , names= encabezado)
ftab

### Describa que es lo que esta observando y qué puede decir de todas las secuencias 

### Podrían eliminarse algunas columnas? Cuál(es)?

# Qué ocurrirá su usa el comando `ftab.head()`?

In [None]:
ftab.head()

### Con el fin de resumir la informacion se agruparan considerando el nombre cientifico (sscinames), contando el numero de casos en donde se encontro una asignacion

In [None]:
ftab1= ftab.groupby("sscinames")["qseqid"].count()
ftab1 = DataFrame(ftab1)
ftab1

## para guardar esta informacion se utiliza pandas para guardarlo con formato csv (valores separados por comas)

In [None]:
ftab1.to_csv("secuencias_especies.csv")

In [None]:
ls

### Que diferencia hay si solamente utiliza estos comandos?

In [None]:
ftab1= ftab.groupby("sscinames")["qseqid"].count()
ftab1

## cuál considera mas facil de leer?

## Para graficar los resultados se cargan las bibliotecas pylab y matplotlib
Ya vienen integrados con el python y no es necesario descargarlos. Si requiere información adicional:
https://matplotlib.org


In [None]:
import pylab
import matplotlib.pyplot as plt
%matplotlib inline

## que hace al último comando?
`%matplotlib inline`

## para graficar 

In [None]:
plt.pie(ftab1, labels=ftab1.index)
plt.show()

### revise el manual del plt.pi y modifique los comandos para que en la grafica se observen una de las rebanadas salida

In [None]:
?plt.pie

In [None]:
import os

In [None]:
os.makedirs('img',exist_ok=True)

In [None]:
?os.removedirs

In [None]:
plt.pie(ftab1, labels=ftab1.index)
yes = input("save figure")
if yes.lower()=="y":
    plt.savefig('./img/secuencias_pie.png', 
                dpi=800, bbox_inches='tight')

plt.show()



### Si en vez de gráfica de pastel desea obtener una gráfica de barras use los siguientes comandos

In [None]:
ftab1.plot(kind='barh', color=list('gybr'))
plt.axis([0, max (ftab1)+1, -1, len (ftab1.index)], label=None)
pylab.xlabel("Frecuencia")
pylab.ylabel("Especies")
plt.show()

#### Cómo modificaría el código anterior para guardar la gráfica como ./img/secuencias_barras.png 

In [None]:
ls ./img/

### describa lo que hacen las siguientes celdas

In [None]:
ftab2 = ftab1.sort_values( ascending=True)
ftab2


In [None]:
ftab2.plot(kind='barh', color=list('gybr'))
plt.axis([0, max (ftab1)+1, -1, len (ftab1.index)], label=None)
pylab.xlabel("Frecuencia")
pylab.ylabel("Especies")
plt.show()

### Si en vez de utilizar "sscinames" se usa "sblastnames". Para ello revise la base de datos obtenida del blast

In [None]:
ftab1= ftab.groupby("sblastnames")["qseqid"].count()
ftab1

In [None]:
ftab2 = ftab1.sort_values(ascending=False)
ftab2


In [None]:
ftab2.plot(kind='barh', color=list('gybr'))
plt.axis([0, max (ftab1)+1, -1, len (ftab1.index)], label=None)
pylab.xlabel("Frecuencia")
pylab.ylabel("Especies")
plt.show()

## Procedimiento para asignar el nombre a las secuencias y crear un archivo fasta

In [None]:
from Bio import pairwise2, SeqIO
from Bio.pairwise2 import format_alignment
from Bio import AlignIO
from Bio.SeqRecord import SeqRecord


In [None]:
ftab

In [None]:
## Función para obtener la inicial del género y la especie para poderla agregar al "id" de la secuencia
def genesp(desc):
    genero1= desc[:1]
    genero2= desc[desc.find(" ")+1:]
    genero2= genero2[:genero2.find(" ")]
    gen_especie = genero1+ "_" +genero2
    return (gen_especie)

In [None]:
## Función para obtener la inicial del género para poderla agregar al "id" de la secuencia
def genero(desc):
    genero1= desc[:desc.find(" ")]
    genero2= desc[desc.find(" ")+1:]
    genero2= genero2[:genero2.find(" ")]
    genero1= genero1 + " " + genero2
    return (genero1)

In [None]:
f= open("secuencias_comp.fas", 'r')
f2= []
linea=''
n=0
n1=0
n2=1000  # para procesar todos n2=0, para procesar hasta un numero de secuencias dado, n2= numero deseado
for rec in SeqIO.parse(f, "fasta"):
    #print (rec.id, rec.description, rec.seq[0:50])
    nombre = rec.id
    row2=ftab.loc[ftab['qseqid']==nombre]
    
    try :
        row3_1= row2['qseqid'].values[0]
    except:
        n+=1
        n1+=1
    else:
        n+=1
        descripcion = row2["stitle"].values[0]
        nombre = rec.id+ "_" +genesp(descripcion)
        descripcion = genero(descripcion)
        linea = SeqRecord(rec.seq, id=nombre, description= (descripcion)) 
        f2.append(linea)
        print(linea.id, "\t" , linea.description)
        
    if n==n2:
        break
print (str(n)+" secuencias totales" +"\n" + "secuencias con anotacion: "+ str(n-n1))

In [None]:
SeqIO.write(f2, 'secuencias_anotadas.fasta','fasta')

In [None]:
!head secuencias_anotadas.fasta