# Bitacora para el manejo de secuencias ensambladas y búsqueda con *Blastn*

## Para el siguiente ejercicio es necesario tener el Blast+ instalado en la computadora
https://www.ncbi.nlm.nih.gov/guide/data-software/

## Se utilizarán los contigs formados por el ensamblaje que se localizan en 
`~/Desktop/data/ejercicio_ensamblaje/8_S356_contigs.fa`

In [None]:
from pandas import Series, DataFrame
import pandas as pd
from Bio import SeqIO, AlignIO, SeqRecord
from Bio.SeqRecord import SeqRecord
from Bio.Seq import Seq
import matplotlib.pyplot as plt 
import os

In [None]:
os.makedirs('img',exist_ok=True)

In [None]:
cd ~/Desktop/data/ejercicio_ensamblaje/

In [None]:
ls 

In [None]:
!grep ">" 8_S356_contigs.fa |wc -l

# Se analizarán con blastx los contigs obtenidos a la base de datos *nt*

Verifique la localización de la base de datos, en este caso se encuentra en `~/DATA/nt/`

In [None]:
%%bash
export BLASTDB=~/DATA/nt/

date  
time blastn -query 8_S356_contigs.fa  -db ~/DATA/nt/nt \
-out 8_S356_contigs.tab -evalue 1E-6 -max_target_seqs 1 \
-num_threads 2 -outfmt "6 std sskingdoms stitle staxids sscinames scomnames sblastnames" 
date

In [None]:
!date

In [None]:
!head -2 8_S356_contigs.tab

In [None]:
encabezado =("qseqid", "sseqid", "pident", "length", "mismatch", "gapopen","qstart", 
             "qend", "sstart","send", "evalue", "bitscore", "sskingdoms", "stitle", 
             "staxids", "sscinames", "scomnames", "sblastnames")

In [None]:
ftab=pd.read_table("8_S356_contigs.tab", header=None , names= encabezado)
ftab.head()

In [None]:
len(ftab)

In [None]:
ftab1= ftab.groupby("sskingdoms")["qseqid"].count()
ftab1 = DataFrame(ftab1)
ftab1

# Cuántos contigs no son eucariotas?

## Guadardo la base de datos en formato csv

In [None]:
ftab.to_csv("8_S356_contigs_blastn.csv", header=True, index= None)

### en caso de haber el hecho el análisis previo y querer recuperar el archivo anterior 

In [None]:
ftab= pd.read_csv("8_S356_contigs_blastn.csv")
ftab.head(2)

# Hay algún contig con más de una asignación (duplicados)?

In [None]:
ftab1= ftab.groupby("qseqid")["qseqid"].count()
ftab1 = DataFrame(ftab1)
ftab1

# Es necesario eliminar duplicados

In [None]:
ftab1 =ftab.drop_duplicates(subset = 'qseqid', keep='first', inplace = False)
ftab1

# Cuántos grupos hay a parte de peces?

In [None]:
ftab2= ftab1.groupby("sblastnames")["qseqid"].count()
ftab2 = DataFrame(ftab2)
ftab2

In [None]:
ftab2= ftab1.groupby("sscinames")["qseqid"].count()
ftab2.sort_values(axis = 0, ascending=False, inplace=True)
ftab2

# procedimiento para simplificar tabla y graficar las 10 primeras categorías y el resto ponerlas en "otras"

In [None]:
linea10=ftab2[:10]
linea11=ftab2[10:]
#linea10
otro=sum (linea11)
#otro
otros = pd.DataFrame({0:otro}, index=["Other"])
otros
linea10=linea10.append(otros)
linea10

In [None]:
linea10.plot(kind='barh', figsize= (8,6))
plt.axis([-1, max(linea10[0])+5, -1, 10.8], label=None)
plt.legend().set_visible(False)
plt.xlabel("Frecuencia")
plt.ylabel("Especies")
plt.title("Especies con resultado de blastn")
plt.show()