In [44]:
from Bio import SeqIO
import os
import pathlib
from textwrap import wrap
from Bio.Blast.Applications import *
import pandas as pd
import plotly.express as px

# Parte 01

## Tratar os arquivos de enzimas
* Inserindo EC
* Filtrando enzimas com 100 aminoacidos ou mais
* Removendo arquivos que não passaram no filtro

In [2]:
def formatSequence(sequence, length):
    '''
    Função para formatar as sequencias
    '''
    formatedSequence = ''
    listTemp = wrap(sequence, length)
    for temp in listTemp:
        formatedSequence = formatedSequence + str(temp) + '\n'
    return formatedSequence.rstrip('\n')

In [3]:
def runForClass(subfolders):
    '''
    Função para ler os arquivos dentro de cada pasta e salvar o s arquivs filtrados e tratados
    '''
    for sufolder in subfolders:
        with open(sufolder + ".faa", 'w') as outpuFile:
            for inputFile in os.listdir(sufolder):
                if inputFile.endswith(".faa"):
                    with open(os.path.join(sufolder, inputFile)) as handle:
                        for record in SeqIO.parse(handle, "fasta"):
                            if len(record.seq) > 100: # sequencias com mais de 100 aminoacidos
                                outpuFile.write(f">{record.description} EC={inputFile[:-4]}\n")
                                outpuFile.write(formatSequence(str(record.seq), 80) + "\n")

In [4]:
def checkFile(subfolders):
    '''
    Função que remove os arquivos que não passarm no filtro
    '''
    for file in subfolders:
        if os.path.getsize(str(file + ".faa")) == 0:# Arquivo vazio?
            os.remove(str(file + ".faa")) # remove

### Flavonoids

In [5]:
subfolders = [ f.path for f in os.scandir("flavonoids") if f.is_dir() ]
runForClass(subfolders)
checkFile(subfolders)

### Monoterpenes

In [6]:
subfolders = [ f.path for f in os.scandir("monoterpenes") if f.is_dir() ]
runForClass(subfolders)
checkFile(subfolders)

### Sesquiterpenes

In [7]:
subfolders = [ f.path for f in os.scandir("sesquiterpenes") if f.is_dir() ]
runForClass(subfolders)
checkFile(subfolders)

### Others

In [8]:
subfolders = [ f.path for f in os.scandir("others") if f.is_dir() ]
runForClass(subfolders)
checkFile(subfolders)

## Criando o banco de dados Blast com os arquivos tratados de enzymas

In [9]:
def createBlastDb(folder_class):
    blast_cmds = []
    # Cria uma pasta para o banco de dados Blast, caso ela ainda nao existir
    if not os.path.exists("blastdb"):
        os.makedirs("blastdb")
    files = pathlib.Path(folder_class).glob("*.faa") # lista arquivos .faa da pasta
    for file in files:
        output = "blastdb/" + str(file).split("/")[-1][:-4]
        cline = NcbimakeblastdbCommandline(dbtype="prot", input_file = file, out = output)
        blast_cmds.append(cline)
    return blast_cmds

### Flavonoids

In [10]:
blast_cmds = createBlastDb("flavonoids")
for cmd in blast_cmds:
    stdout, stderr = cmd()

### Monoterpenes

In [11]:
blast_cmds = createBlastDb("monoterpenes")
for cmd in blast_cmds:
    stdout, stderr = cmd()

### Sesquiterpenes

In [12]:
blast_cmds = createBlastDb("sesquiterpenes")
for cmd in blast_cmds:
    stdout, stderr = cmd()

### Others

In [13]:
blast_cmds = createBlastDb("others")
for cmd in blast_cmds:
    stdout, stderr = cmd()

# Parte 02

## Tratar os arquivos de proteinas das plantas
* Formatando os arquivos fasta
* Filtrando proteinas com 100 aminoacidos ou mais
* Removendo arquivos que não passaram no filtro

In [14]:
def runForProteins(folder):
    '''
    Função para ler os arquivos de proteinas de cada planta e trata-los
    '''
    files = pathlib.Path(folder).glob("*.fasta") # lista arquivos .fasta da pasta
    for file in files:
        with open(str(file)[:-6]+".faa", 'w') as outpuFile:
            with open(file) as handle:
                for record in SeqIO.parse(handle, "fasta"):
                    if len(record.seq) > 100: # sequencias com mais de 100 aminoacidos
                        outpuFile.write(f">{record.description}\n")
                        outpuFile.write(formatSequence(str(record.seq)+"\n", 80))

In [15]:
runForProteins("proteinas_plantas_daninhas")

# Parte 03

## Rodando Blast para todas as plantas contra todas as enzimas

In [70]:
def runBlast(folder_proteins, folder_blastdb):
    # Cria uma pasta para resultados Blast, caso ela ainda nao existir
    if not os.path.exists("blast_results"):
        os.makedirs("blast_results")
    protein_files = pathlib.Path(folder_proteins).glob("*.faa") # lista arquivos .faa da pasta
    for protein_file in protein_files:
        blastdb_files = pathlib.Path(folder_blastdb).glob("*.phr") # lista arquivos .faa da pasta
        for blastdb_file in blastdb_files:
            E_VALUE_THRESH = 0.00001
            protein = str(protein_file).split("/")[-1][:-4]
            enzyme  = str(blastdb_file).split("/")[-1][:-4]
            protein = protein.replace(" ","_")
            result_file = "blast_results/" + protein + "_VERSUS_" + enzyme + ".blast.tab"
            blastp_cline = NcbiblastpCommandline(
                query    = str(protein_file), 
                db       = str(blastdb_file)[:-4], 
                evalue   = E_VALUE_THRESH,
                num_threads = 4,
                max_hsps = 1,
                outfmt   = 6, 
                out      = result_file
            )
            print(f"Rodando {protein} VERSUS {enzyme}...")
            stdout, stderr = blastp_cline()

In [71]:
runBlast("proteinas_plantas_daninhas", "blastdb")

Rodando Euphorbia_heterophylla VERSUS ethylene...
Rodando Euphorbia_heterophylla VERSUS bicylogermacrene...
Rodando Euphorbia_heterophylla VERSUS E-beta-ocimene...
Rodando Euphorbia_heterophylla VERSUS beta-ocimene...
Rodando Euphorbia_heterophylla VERSUS eugenol...
Rodando Euphorbia_heterophylla VERSUS alpha-humulene...
Rodando Euphorbia_heterophylla VERSUS strigol...
Rodando Euphorbia_heterophylla VERSUS beta-phellandrene...
Rodando Euphorbia_heterophylla VERSUS gamma-terpinene...
Rodando Euphorbia_heterophylla VERSUS beta-bisabolene...
Rodando Euphorbia_heterophylla VERSUS alpha-pinene...
Rodando Euphorbia_heterophylla VERSUS 1-8-cineole...
Rodando Euphorbia_heterophylla VERSUS terpinolene...
Rodando Euphorbia_heterophylla VERSUS dimboa...
Rodando Euphorbia_heterophylla VERSUS 8-cadinene...
Rodando Euphorbia_heterophylla VERSUS myrcene...
Rodando Euphorbia_heterophylla VERSUS luteolin...
Rodando Euphorbia_heterophylla VERSUS methyl_jasmonate...
Rodando Euphorbia_heterophylla VERSUS 

Rodando Senecio_brasiliensis VERSUS indole...
Rodando Senecio_brasiliensis VERSUS alpha-terpinene...
Rodando Melampodium_perfoliatum VERSUS ethylene...
Rodando Melampodium_perfoliatum VERSUS bicylogermacrene...
Rodando Melampodium_perfoliatum VERSUS E-beta-ocimene...
Rodando Melampodium_perfoliatum VERSUS beta-ocimene...
Rodando Melampodium_perfoliatum VERSUS eugenol...
Rodando Melampodium_perfoliatum VERSUS alpha-humulene...
Rodando Melampodium_perfoliatum VERSUS strigol...
Rodando Melampodium_perfoliatum VERSUS beta-phellandrene...
Rodando Melampodium_perfoliatum VERSUS gamma-terpinene...
Rodando Melampodium_perfoliatum VERSUS beta-bisabolene...
Rodando Melampodium_perfoliatum VERSUS alpha-pinene...
Rodando Melampodium_perfoliatum VERSUS 1-8-cineole...
Rodando Melampodium_perfoliatum VERSUS terpinolene...
Rodando Melampodium_perfoliatum VERSUS dimboa...
Rodando Melampodium_perfoliatum VERSUS 8-cadinene...
Rodando Melampodium_perfoliatum VERSUS myrcene...
Rodando Melampodium_perfoliat

Rodando Solanum_americanum VERSUS beta-caryophyllene...
Rodando Solanum_americanum VERSUS tricine...
Rodando Solanum_americanum VERSUS jasmonic_acid...
Rodando Solanum_americanum VERSUS indole...
Rodando Solanum_americanum VERSUS alpha-terpinene...
Rodando Hyptys_suaveolens VERSUS ethylene...
Rodando Hyptys_suaveolens VERSUS bicylogermacrene...
Rodando Hyptys_suaveolens VERSUS E-beta-ocimene...
Rodando Hyptys_suaveolens VERSUS beta-ocimene...
Rodando Hyptys_suaveolens VERSUS eugenol...
Rodando Hyptys_suaveolens VERSUS alpha-humulene...
Rodando Hyptys_suaveolens VERSUS strigol...
Rodando Hyptys_suaveolens VERSUS beta-phellandrene...
Rodando Hyptys_suaveolens VERSUS gamma-terpinene...
Rodando Hyptys_suaveolens VERSUS beta-bisabolene...
Rodando Hyptys_suaveolens VERSUS alpha-pinene...
Rodando Hyptys_suaveolens VERSUS 1-8-cineole...
Rodando Hyptys_suaveolens VERSUS terpinolene...
Rodando Hyptys_suaveolens VERSUS dimboa...
Rodando Hyptys_suaveolens VERSUS 8-cadinene...
Rodando Hyptys_suaveo

Rodando Bidens_spp. VERSUS myrcene...
Rodando Bidens_spp. VERSUS luteolin...
Rodando Bidens_spp. VERSUS methyl_jasmonate...
Rodando Bidens_spp. VERSUS hexenal...
Rodando Bidens_spp. VERSUS beta-caryophyllene...
Rodando Bidens_spp. VERSUS tricine...
Rodando Bidens_spp. VERSUS jasmonic_acid...
Rodando Bidens_spp. VERSUS indole...
Rodando Bidens_spp. VERSUS alpha-terpinene...
Rodando Leonotis_nepetifolia VERSUS ethylene...
Rodando Leonotis_nepetifolia VERSUS bicylogermacrene...
Rodando Leonotis_nepetifolia VERSUS E-beta-ocimene...
Rodando Leonotis_nepetifolia VERSUS beta-ocimene...
Rodando Leonotis_nepetifolia VERSUS eugenol...
Rodando Leonotis_nepetifolia VERSUS alpha-humulene...
Rodando Leonotis_nepetifolia VERSUS strigol...
Rodando Leonotis_nepetifolia VERSUS beta-phellandrene...
Rodando Leonotis_nepetifolia VERSUS gamma-terpinene...
Rodando Leonotis_nepetifolia VERSUS beta-bisabolene...
Rodando Leonotis_nepetifolia VERSUS alpha-pinene...
Rodando Leonotis_nepetifolia VERSUS 1-8-cineole

Rodando Amaranthus_viridis VERSUS 1-8-cineole...
Rodando Amaranthus_viridis VERSUS terpinolene...
Rodando Amaranthus_viridis VERSUS dimboa...
Rodando Amaranthus_viridis VERSUS 8-cadinene...
Rodando Amaranthus_viridis VERSUS myrcene...
Rodando Amaranthus_viridis VERSUS luteolin...
Rodando Amaranthus_viridis VERSUS methyl_jasmonate...
Rodando Amaranthus_viridis VERSUS hexenal...
Rodando Amaranthus_viridis VERSUS beta-caryophyllene...
Rodando Amaranthus_viridis VERSUS tricine...
Rodando Amaranthus_viridis VERSUS jasmonic_acid...
Rodando Amaranthus_viridis VERSUS indole...
Rodando Amaranthus_viridis VERSUS alpha-terpinene...
Rodando Portulaca_oleracea VERSUS ethylene...
Rodando Portulaca_oleracea VERSUS bicylogermacrene...
Rodando Portulaca_oleracea VERSUS E-beta-ocimene...
Rodando Portulaca_oleracea VERSUS beta-ocimene...
Rodando Portulaca_oleracea VERSUS eugenol...
Rodando Portulaca_oleracea VERSUS alpha-humulene...
Rodando Portulaca_oleracea VERSUS strigol...
Rodando Portulaca_oleracea 

Rodando Acanthospermum_australe VERSUS beta-phellandrene...
Rodando Acanthospermum_australe VERSUS gamma-terpinene...
Rodando Acanthospermum_australe VERSUS beta-bisabolene...
Rodando Acanthospermum_australe VERSUS alpha-pinene...
Rodando Acanthospermum_australe VERSUS 1-8-cineole...
Rodando Acanthospermum_australe VERSUS terpinolene...
Rodando Acanthospermum_australe VERSUS dimboa...
Rodando Acanthospermum_australe VERSUS 8-cadinene...
Rodando Acanthospermum_australe VERSUS myrcene...
Rodando Acanthospermum_australe VERSUS luteolin...
Rodando Acanthospermum_australe VERSUS methyl_jasmonate...
Rodando Acanthospermum_australe VERSUS hexenal...
Rodando Acanthospermum_australe VERSUS beta-caryophyllene...
Rodando Acanthospermum_australe VERSUS tricine...
Rodando Acanthospermum_australe VERSUS jasmonic_acid...
Rodando Acanthospermum_australe VERSUS indole...
Rodando Acanthospermum_australe VERSUS alpha-terpinene...
Rodando Senna_obtusifolia VERSUS ethylene...
Rodando Senna_obtusifolia VERS

Rodando Nicandra_physaloides VERSUS eugenol...
Rodando Nicandra_physaloides VERSUS alpha-humulene...
Rodando Nicandra_physaloides VERSUS strigol...
Rodando Nicandra_physaloides VERSUS beta-phellandrene...
Rodando Nicandra_physaloides VERSUS gamma-terpinene...
Rodando Nicandra_physaloides VERSUS beta-bisabolene...
Rodando Nicandra_physaloides VERSUS alpha-pinene...
Rodando Nicandra_physaloides VERSUS 1-8-cineole...
Rodando Nicandra_physaloides VERSUS terpinolene...
Rodando Nicandra_physaloides VERSUS dimboa...
Rodando Nicandra_physaloides VERSUS 8-cadinene...
Rodando Nicandra_physaloides VERSUS myrcene...
Rodando Nicandra_physaloides VERSUS luteolin...
Rodando Nicandra_physaloides VERSUS methyl_jasmonate...
Rodando Nicandra_physaloides VERSUS hexenal...
Rodando Nicandra_physaloides VERSUS beta-caryophyllene...
Rodando Nicandra_physaloides VERSUS tricine...
Rodando Nicandra_physaloides VERSUS jasmonic_acid...
Rodando Nicandra_physaloides VERSUS indole...
Rodando Nicandra_physaloides VERS

Rodando Amaranthus_spinosus VERSUS beta-phellandrene...
Rodando Amaranthus_spinosus VERSUS gamma-terpinene...
Rodando Amaranthus_spinosus VERSUS beta-bisabolene...
Rodando Amaranthus_spinosus VERSUS alpha-pinene...
Rodando Amaranthus_spinosus VERSUS 1-8-cineole...
Rodando Amaranthus_spinosus VERSUS terpinolene...
Rodando Amaranthus_spinosus VERSUS dimboa...
Rodando Amaranthus_spinosus VERSUS 8-cadinene...
Rodando Amaranthus_spinosus VERSUS myrcene...
Rodando Amaranthus_spinosus VERSUS luteolin...
Rodando Amaranthus_spinosus VERSUS methyl_jasmonate...
Rodando Amaranthus_spinosus VERSUS hexenal...
Rodando Amaranthus_spinosus VERSUS beta-caryophyllene...
Rodando Amaranthus_spinosus VERSUS tricine...
Rodando Amaranthus_spinosus VERSUS jasmonic_acid...
Rodando Amaranthus_spinosus VERSUS indole...
Rodando Amaranthus_spinosus VERSUS alpha-terpinene...
Rodando Digitaria_spp. VERSUS ethylene...
Rodando Digitaria_spp. VERSUS bicylogermacrene...
Rodando Digitaria_spp. VERSUS E-beta-ocimene...
Rod

Rodando Sorghum_halepense VERSUS beta-phellandrene...
Rodando Sorghum_halepense VERSUS gamma-terpinene...
Rodando Sorghum_halepense VERSUS beta-bisabolene...
Rodando Sorghum_halepense VERSUS alpha-pinene...
Rodando Sorghum_halepense VERSUS 1-8-cineole...
Rodando Sorghum_halepense VERSUS terpinolene...
Rodando Sorghum_halepense VERSUS dimboa...
Rodando Sorghum_halepense VERSUS 8-cadinene...
Rodando Sorghum_halepense VERSUS myrcene...
Rodando Sorghum_halepense VERSUS luteolin...
Rodando Sorghum_halepense VERSUS methyl_jasmonate...
Rodando Sorghum_halepense VERSUS hexenal...
Rodando Sorghum_halepense VERSUS beta-caryophyllene...
Rodando Sorghum_halepense VERSUS tricine...
Rodando Sorghum_halepense VERSUS jasmonic_acid...
Rodando Sorghum_halepense VERSUS indole...
Rodando Sorghum_halepense VERSUS alpha-terpinene...
Rodando Phyllanthus_tenellus VERSUS ethylene...
Rodando Phyllanthus_tenellus VERSUS bicylogermacrene...
Rodando Phyllanthus_tenellus VERSUS E-beta-ocimene...
Rodando Phyllanthus

In [80]:
def checkResultFiles(folder):
    '''
    Função que remove os arquivos sem resultados
    '''
    files = pathlib.Path(folder).glob("*.tab") # lista arquivos .fasta da pasta
    for file in files:
        if os.path.getsize(str(file)) == 0:# Arquivo vazio?
            os.remove(str(file)) # remove

In [81]:
# Removendo arquivos com resultado vazio ou sem resultados
checkResultFiles("blast_results")

In [85]:
filename = "blast_results/Ipomoea_nil_VERSUS_1-8-cineole.blast.tab"
df = pd.read_csv(
    filename, 
    header = None, 
    sep='\t', 
    names=["id_proteina_planta", "id_enzima", "porcent_identidade", "tamanho", "mismatch", "gapopen", "qstart", "qend", "sstart", "send", "evalue", "bitscore"]
)
df

Unnamed: 0,id_proteina_planta,id_enzima,porcent_identidade,tamanho,mismatch,gapopen,qstart,qend,sstart,send,evalue,bitscore
0,XP_019175963.1,sp|P0DI77|CIN2_ARATH,45.199,604,309,12,9474993,9475584,1,594,4.72e-165,525
1,XP_019175963.1,sp|P0DI76|CIN1_ARATH,45.199,604,309,12,9474993,9475584,1,594,4.72e-165,525
2,XP_019175963.1,tr|A0A221I0G1|A0A221I0G1_9LAMI,44.821,560,293,7,7532349,7532906,5,550,9.01e-152,486
3,XP_019175963.1,sp|O81191|SCS_SALOF,45.324,556,279,11,7532350,7532902,55,588,1.07e-149,480
4,XP_019175963.1,tr|A0A2G9HPL7|A0A2G9HPL7_9LAMI,48.424,349,171,6,9473336,9473681,4,346,1.82e-105,343
5,XP_019175963.1,tr|A0A2G9HSG6|A0A2G9HSG6_9LAMI,48.837,172,84,3,7532734,7532904,11,179,9.78e-47,167


## Gerando arquivo para grafico

In [18]:
files = pathlib.Path("blast_results").glob("*.tab") # lista arquivos .fasta da pasta
result = []
for file in files:
    rs = str(file).split("/")[1][:-10].split("_VERSUS_")
    result.append( (rs[0].replace("_"," "), rs[1]) )

In [32]:
with open('planta_versus_metabolito.csv', 'w') as planta_versus_metabolito:
    planta_versus_metabolito.write(f"Planta,Metabólito\n")
    for tupla in result:
        planta = tupla[0]
        metabolito = str(tupla[1]).replace("_"," ")
        planta_versus_metabolito.write(f"{planta},{metabolito}\n")

## Gerando o gráfico planta versus metabolito

In [81]:
df = pd.read_csv('planta_versus_metabolito.csv')  
df

Unnamed: 0,Planta,Metabólito
0,Eleusine indica,strigol
1,Brachiaria brizantha,alpha-pinene
2,Amaranthus hybridus,hexenal
3,Eleusine indica,alpha-terpinene
4,Emilia sonchifolia,indole
...,...,...
169,Ipomoea nil,hexenal
170,Eleusine indica,alpha-pinene
171,Nicandra physaloides,indole
172,Eleusine indica,8-cadinene


In [92]:
fig = px.scatter(
    df, 
    x = "Metabólito", 
    y = "Planta", 
    color="Metabólito"
)
fig.update_traces(mode="markers", hovertemplate = None)
fig.update_layout(
    showlegend=False, 
    hovermode="x",
    autosize=False,
    width = 960,
    height = 800)
fig.show()