# Bitacora para el manejo de secuencias fasta y búsqueda basica de *Blastx*

## Para el siguiente ejercicio es necesario tener el Blast+ instalado en la computadora
https://www.ncbi.nlm.nih.gov/guide/data-software/

In [None]:
cd ~/Desktop/data/exp710/

In [None]:
ls

In [None]:
%%bash
export BLASTDB=/home/user1/DATA/swiss/

date  
time blastx -query 710_transcritos.fasta -db /home/user1/DATA/swiss/swissprot \
-out 710_transcritos.tab -evalue 1E-6 -max_target_seqs 1 \
-num_threads 2 -outfmt "6 std stitle" 
date

In [None]:
!head 710_transcritos.tab

In [None]:
from pandas import Series, DataFrame
import pandas as pd
from Bio import SeqIO, AlignIO, SeqRecord
from Bio.SeqRecord import SeqRecord
from Bio.Seq import Seq
import matplotlib.pyplot as plt 
import os
from matplotlib_venn import venn3_unweighted

###  Blastx da los resultados sin nombre de columnas, por lo que se asignan a la variable "encabezado". 
### *NOTA:* el blastx a la base de datos swissprot da como segunda columna el identificador de Uniprot y no el del GenBank como en el caso de blastn a la base de datos 16 microbial o nt

In [None]:
# observe el nombre de la segunda columna
encabezado =("qseqid", "uniprotid", "pident", "length", "mismatch", "gapopen","qstart", 
             "qend", "sstart","send", "evalue", "bitscore", "stitle")

### Se lee el archivo de salida y se asigna a la variable "ftab", con ello se pueden ver los resultados

In [None]:
ftab=pd.read_table("710_transcritos.tab", header=None , names= encabezado)
ftab.head()


In [None]:
ftab1= ftab.groupby("stitle")["qseqid"].count()
ftab1 = DataFrame(ftab1)
ftab1

In [None]:
ftab1 = ftab.drop_duplicates(subset = "qseqid", inplace = False)
ftab1.describe().round(3)

In [None]:
!date

In [None]:
fspid = pd.read_csv('~/Desktop/bigdata/spidgo.csv', engine="python")
fspid.head(2)

In [None]:
!date

In [None]:
f2=pd.merge(ftab1,fspid, on ="uniprotid" , how='inner')
f2.head(2)

In [None]:
fspid = ''
fspid

In [None]:
!date

In [None]:
!date

In [None]:
!date
fgo = pd.read_csv('~/Desktop/bigdata/go_to_goslim.csv', engine="python")
fgo.head(2)

In [None]:
!date

In [None]:
f3=pd.merge(f2,fgo, on ="GO_id" , how='inner')
f3.head()

In [None]:
!date

In [None]:
f4=f3.drop_duplicates(subset = ('qseqid', "aspect"), inplace = False)
f4.describe()[['length','evalue']]

In [None]:
f4.to_csv("710_transcritos_goslim.csv", index =  None)

In [None]:
ftabpivot = f4.pivot_table(values="uniprotid" , index=["qseqid"], aggfunc=len, columns="aspect")
ftabpivot.describe()

# Proceso para generar el diagama de Venn con la información de 
## Componentes celulares, funciones biologicas y procesos biologicos, C, F y P, respectivamente

In [None]:
lineaC =[] # data from C
lineaF =[] # data from F
lineaP =[] # data from P
linea = ""
n=1
for row in ftabpivot.index:
    row2=ftabpivot.loc[row]
    if str(row2["C"])=="nan" and str(row2["F"])=="nan" and str(row2["P"])=="nan" :
        continue    
    else:        
        if str(row2["C"]) !="nan":
            linea = row
        else:
            linea = ""
        lineaC.append(linea)
        if str(row2["F"]) !="nan":
            linea = row
        else:
            linea = ""
        lineaF.append(linea)

        if str(row2["P"]) !="nan":
            linea = row
        else:
            linea = ""
        lineaP.append(linea)

        n+=1
        #if n==1000:
        #    break

len(lineaC), len(lineaF), len(lineaP)

In [None]:
lineaC = set(lineaC)
lineaF = set(lineaF)
lineaP = set(lineaP)
venn3_unweighted([lineaC, lineaF, lineaP], ('C', 'F', 'P'))
plt.savefig("710_transcritos_venn3_1.png", dpi=400, bbox_inches='tight')
plt.savefig("710_transcritos_venn3_1.pdf", dpi=400, bbox_inches='tight')
plt.show()

In [None]:
fgo=f4.groupby('GOSlim_bin')["qseqid"].count()
#fgo

fgo.sort_values(inplace = True, ascending=False)
#fgo

linea10=fgo[0:10]
linea11=fgo[10:]
#linea10

#linea11
otro=sum (linea11)
#otro
otros = pd.DataFrame({0:otro}, index=["Other"])
#otros
linea10=linea10.append(otros)
#linea10
linea10.plot(kind='barh', color=list('ybg'))
plt.axis([-1, 500, -1, 11], label=None)
plt.xlabel("Count")
plt.ylabel("GOSlim bin")
plt.legend().set_visible(False)
#plt.savefig("710transcritos_blastx_GObar.png", dpi=400, bbox_inches='tight')


plt.show()