# **Women in Bioinformatics and Data Science**

## <font color=purple>**2023 1st WBDS LA Camp "Introduction to Bioinformatics and Data Science"** 
Elaborado para WBDSLA, por ATG @atgenomics

## Ejemplo de proyecto final

- ### Predicción de genes en genomas bacterianos
- ### Búsqueda de secuencias proteínicas en bases de datos
- ### Búsqueda de secuencias homólogas usando BLAST
- ### Búsqueda de dominios funcionales en proteínas seleccionadas

## Para éste ejemplo trataremos de buscar secuencias codificantes de proteínas asociadas a sintesis de antibióticos

# **0. Preparación del entorno**

> Para que el notebook funcione adecuadamente debes llenar el archivo credentials.py con tu correo electrónico y la API key que proporciona NCBI a sus usuarios registrados (más información de como obtener una API key [aquí](https://support.nlm.nih.gov/knowledgebase/article/KA-05317/en-us))

## Con el siguiente código cargamos las bibliotecas necesarias para que todo el código del notebook funcione

- ### En el archivo `credentials.py` almacenaremos nuestras llaves de acceso para la API de NCBI
- ### Usaremos [pandas](https://pandas.pydata.org/) para el manejo general de datos
- ### Usaremos [pyCirclize](https://moshi4.github.io/pyCirclize/) para visualizar nuestros datos genómicos
- ### Usaremos [pyrodigal](https://pyrodigal.readthedocs.io/en/stable/) para la predicción de genes codificantes
- ### Usaremos [requests](https://requests.readthedocs.io/en/latest/) para interactuar con las APIs de NCBI, UniProt e InterProScan
- ### Usaremos [seaborn](https://seaborn.pydata.org/) para visualizar algunas de las propiedades genómicas obtenidas
- ### Usaremos [subprocess](https://docs.python.org/3/library/subprocess.html) ejecutar comandos fuera del entorno de python
- ### Usaremos [BioPython](https://biopython.org/) para el manejo de secuencias
- ### Usaremos [io](https://docs.python.org/3/library/io.html) para conectar las entradas y salidas de los distintos programas

### Para instalar las bibliotecas mencionadas, puedes ejecutar los siguientes comandos

```bash
pip3 install matplotlib
pip3 install pandas
pip3 install pycirclize
pip3 install pyrodigal
pip3 install requests
pip3 install seaborn
pip3 install biopython
```

Las bibliotecas `sys`,`subprocess` y `io` forman parte del core de python por lo que no es necesario instalarlas

In [None]:
import credentials
import matplotlib.pyplot as plt
import numpy  as np
import pandas as pd
import pyrodigal
import requests
import seaborn as sns
import subprocess
import sys
from Bio import SeqIO
from Bio import Entrez
from io                 import StringIO
from matplotlib.patches import Patch
from pycirclize         import Circos
from pycirclize.parser  import Gff
from requests.adapters  import HTTPAdapter, Retry

# **1. Obtención de una secuencia genómica**

## Las tecnologías actuales de secuenciación permiten obtener secuencias genómicas relativamente rápido. No obstante, anotar dichas secuencias sigue siendo un factor limitante para el estudio de distintos organismos.

### A pesar de que hay secuencias genómicas completas en GenBank, sus anotaciones pueden ser limitadas

![empty_genomes](empty_genomes.png)

### En el sitio web de [NCBI - Genome](https://www.ncbi.nlm.nih.gov/data-hub/genome) puedes buscar genomas de otros organismos que puedan ser de tu interés, en nuestro ejemplo usaremos *Streptomyces*, un género que se sabe produce compuestos antimicrobianos como parte de sus metabolitos secundarios

- #### Para este tutorial usaremos el ensamble [ASM785857v1](https://www.ncbi.nlm.nih.gov/data-hub/genome/GCA_007858575.1/), y buscaremos genes de producción de antimicrobianos en el cromosoma con número de acceso [CP042279.1](https://www.ncbi.nlm.nih.gov/nuccore/CP042279.1/)

### Con las siguientes líneas de código podemos descargar el genoma de nuestro interés en formato genbank.

> #### Nuestro genoma se almacena como un objeto de tipo `sequence` por lo que fisicamente no existe el archivo en nuestro disco duro a menos que lo guardemos

In [None]:
accession = "CP042279.1"
genome = Entrez.efetch(db="nucleotide",
                       id=accession,
                       format="gb",
                       rettype="text")
record = SeqIO.read(genome, "genbank")
genome_length = len(record.seq)

# **2. Predicción de genes usando pyrodigal**

## Existen muchas herramientas para buscar genes en genomas bacterianos, [anteriormente](https://github.com/WomenBioinfoDataScLA/Gene_Prediction_and_Annotation) incluso nosotros desarrollamos una herramienta simple pero imperfecta.

## En esta ocasión emplearemos pyrodigal ya que podemos integrar rapidamente pyrodigal en notebooks de python, sin embargo, [no hay ni habrá una herramienta perfecta para todos los genomas procarióticos](https://academic.oup.com/bioinformatics/article/38/5/1198/6454948).

### Con el siguiente código podemos encontrar los genes codificantes de proteínas en nuestro genoma procariótico

In [None]:
orf_finder = pyrodigal.OrfFinder()
orf_finder.train(bytes(record.seq))
orf_genes  = orf_finder.find_genes(bytes(record.seq))

## Los resultados de pyrodigal están almacenados en el objeto `genes`, y de este objeto podemos obtener distintas propiedades, tales como la traducción a secuencias aminoacídicas y las posiciones de las regiones codificantes

### Con el siguiente código, podemos almacenar las secuencias aminoacídicas de los genes predichos en un nuevo archivo `CP042279.1.faa`

> ### Es importante que especifiquemos un prefijo para identificar nuestras secuencias aminoacídicas. En este caso estamos usando el genoma de *Streptomyces* sp. WAC8241. Un prefijo adecuado podría ser StrepWA

In [None]:
aa_file = accession + ".faa"
prefix  = "StrepWA"
with open(aa_file, "w") as orf_gene:
    orf_genes.write_translations(orf_gene,sequence_id=prefix)

### Con el siguiente código, podemos almacenar las coordenadas de los genes predichos en un nuevo archivo `CP042279.1.gff`

In [None]:
gff_file = accession + ".gff"
prefix  = "StrepWA"
with open(gff_file, "w") as orf_gene:
    orf_genes.write_gff(orf_gene,sequence_id=prefix)

- ## El archivo `CP042279.1.faa` será util para comparar un set de secuencias curadas contra las predicciones de pyrodigal
- ## El archivo `CP042279.1.gff` será util para visualizar las predicciones realizadas

# **3. Obtención de un set de secuencias de referencia**

## [UniProt](https://www.uniprot.org) es un repositorio en donde están albergadas secuencias de referencia de multiples organismos. Podemos emplear la interfaz web de UniProt, sin embargo para situaciones en donde tengamos que hacer búsquedas y descargas de forma repetitiva (o voluminosa), podemos usar la API de UniProt.

### Podemos usar la API de UniProt mediante `requests` para mantener todo nuestro código en el notebook de python

### Con el siguiente código podemos descargar secuencias de UniProt en el objeto `uniprot_ref_seqs`

> ### Este paso es crucial ya que si no hacemos una curación adecuada de nuestras secuencias obtendremos resultados excesivamente extensos que no nos revelarían mucho acerca de la ruta metabólica o proceso molecular de nuestro interés

In [None]:
uniprot_api_url  = "https://rest.uniprot.org/uniprotkb/stream"
uniprot_api_args = {"compressed" : "false",
                    "format"     : "fasta",
                    "query"      : "(antibiotic biosynthesis) AND (reviewed:true)"}
uniprot_ref_seqs = requests.get(uniprot_api_url,params=uniprot_api_args).text

> ### Es indispensable que incluyamos en nuestro query la sección de "reviewed" para incrementar la confiabilidad de los resultados obtenidos

> ### Adicionalmente, cuando más específica sea nuestra cadena de búsqueda, menos secuencias obtendremos, lo cual si bien podría reducir también el volumen de los resultados, también incrementa la calidad de las comparaciones

## Posteriormente pasamos las secuencias en formato fasta a un archivo (`uniprot_sequences.fasta`) en nuestro disco duro

In [None]:
uniprot_seqs_file = open("uniprot_sequences.fasta", "wt")
uniprot_seqs_file.write(uniprot_ref_seqs)
uniprot_seqs_file.close()

# **4. Creación de una base de datos tipo BLAST**

## A partir de las secuencias aminoacídicas de las predicciones de pyrodigal, podemos crear una base de datos tipo BLAST que usaremos para pescar secuencias similares a las secuencias obtenidas en UniProt

### Con el siguiente código pasamos distintos argumentos al comando `makeblastdb` para construir la base de datos

> ### Recuerdas la variable `aa_file` que definimos anteriormente?

In [None]:
makeblastdb_path = "/usr/local/bioinformatics/blast.2.12.0/bin/makeblastdb"
makeblastdb_command = [makeblastdb_path,'-in',aa_file,'-dbtype','prot']
subprocess.call(makeblastdb_command)

# **5. Obtención de secuencias de interés en el genoma analizado**

## Ya que tenemos los dos sets de proteínas:

- ### 10944 Proteínas en el genoma
- ### 1716 Proteínas de referencia

## Podemos comparar ambos sets para ver que secuencias en nuestro genoma podrían potencialmente estar involucradas en biosíntesis de antibioticos

## Con el siguiente código podemos llamar a BLAST, y obtener una tabla con los resultados de la comparación

### Podemos comparar las secuencias de uniprot contra las secuencias del genoma

In [None]:
blastp_path       = "/usr/local/bioinformatics/blast.2.12.0/bin/blastp"
blastp_out_format = "6 qseqid sseqid qlen slen qstart sstart qend send score evalue length positive"
blastp_out_file   = accession + ".blast.tsv"
blastp_command    = [blastp_path,
                     "-db",          aa_file,
                     "-query",       "uniprot_sequences.fasta",
                     "-evalue",      "1e-9",
                     "-out",         blastp_out_file,
                     "-outfmt",      blastp_out_format,
                     "-num_threads", "12"]
subprocess.call(blastp_command)

## También podemos comparar las secuencias obtenidas del genoma contra las secuencias de uniprot usando el siguiente código

```python
makeblastdb_path = "/usr/local/bioinformatics/blast.2.12.0/bin/makeblastdb"
makeblastdb_command = [makeblastdb_path,'-in',"uniprot_sequences.fasta",'-dbtype','prot']
subprocess.call(makeblastdb_command)
blastp_path      = "/usr/local/bioinformatics/blast.2.12.0/bin/blastp"
blast_out_format = "6 qseqid sseqid qlen slen qstart sstart qend send score evalue length positive"
blast_out_file   = "uniprot_sequences.blast.tsv"
blastp_command   = [blastp_path,
                    "-db",          "uniprot_sequences.fasta",
                    "-query",       aa_file,
                    "-evalue",      "1e-9",
                    "-out",         blast_out_file,
                    "-outfmt",      out_format,
                    "-num_threads", "12"]
subprocess.call(blastp_command)
```

## Ambos resultados son complementarios, y examinarlos por separado podría ser de utilidad para detectar resultados espureos

# **6. Examinación de los resultados de la búsqueda tipo BLAST**

### Los resultados de la búsqueda tipo BLAST están en el archivo `CP042279.1.blast.tsv`, sin embargo dicha tabla no contiene los nombres de las columnas

### Podemos importar esta tabla a un dataframe de pandas y asignar los nombres de las columnas usando la variable `blastp_out_format` que definimos anteriormente

In [None]:
blastp_column_names = blastp_out_format.split(" ")[1:]
blastp_df = pd.read_csv(blastp_out_file,sep="\t",names=blastp_column_names)

### En el genoma de interés encontramos 795 proteínas potencialmente asociadas con biosíntesis de antibioticos, no obstante, no todas las secuencias podrían ser de nuestro interés

In [None]:
candidate_genes=blastp_df["sseqid"].unique().tolist()
len(candidate_genes)

## 6.1. Visualización preliminar de los datos

### Los genomas procarióticos están usualmente organizados en unidades operacionales llamadas operones, en donde los genes se encuentran muy proximos entre sí y en la misma cadena de DNA.

### A través de la biblioteca pyCirclize podemos visualizar los genes que fueron identificados en el paso anterior, pero primero debemos transformar la información que tenemos a un formato legible para pyCirclize

### 6.1.1 Transformar nuestro archivo gff en un dataframe

In [None]:
gff_columns     = ["chr","source","feature_type","start","end","score","strand","phase","info"]
gff_df          = pd.read_csv(gff_file,sep="\t",comment="#",header=None,names=gff_columns)
gff_df["start"] = gff_df["start"].astype(int)
gff_df["end"]   = gff_df["end"].astype(int)

### 6.1.2 Obtención de información adicional del dataframe `gff_df`

In [None]:
def get_gff_info(info_str):
    out_dict = {}
    info_arr = info_str.split(";")
    for line in info_arr:
        if "=" in line:
            line_arr    = line.split("=")
            field_name  = line_arr[0]
            field_value = line_arr[1]
            out_dict[field_name] = field_value
    return out_dict

In [None]:
gff_df["annotation"] = gff_df["info"].apply(lambda x: get_gff_info(x))

### 6.1.3 Filtrado de datos para incluir solamente los genes identificados como asociados a la biosíntesis de antibióticos

In [None]:
gff_df["candidate"] = gff_df["annotation"].apply(lambda x: "include" if x["ID"] in candidate_genes else "exclude")

### 6.1.4 El resultado lo almacenamos en un nuevo archivo gff para que pyCirclize visualice unicamente los genes de interés

In [None]:
candidate_df = gff_df.copy()
candidate_df = candidate_df[candidate_df["candidate"]=="include"][gff_columns]
candidate_df.to_csv("candidates.gff",sep="\t",header=False,index=False)

### 6.1.5 Visualización de los datos con pyCirclize

### Con el siguiente código construiremos distintos objetos para obtener un mapa circular que nos permitirá identificar manualmente potenciales operones en el genoma de Streptomyces sp.

In [None]:
circos = Circos(sectors={accession: genome_length})
circos.text("Streptomyces sp.")
circos_gff = Gff(gff_file="candidates.gff")
sector = circos.get_sector(accession)
sector = circos.sectors[0]
cds_track = sector.add_track((80, 100))
cds_track.axis(fc="#EEEEEE", ec="none")
cds_track.genomic_features(circos_gff.extract_features("CDS", target_strand =  1), r_lim=(90, 100),fc="red" )
cds_track.genomic_features(circos_gff.extract_features("CDS", target_strand = -1), r_lim=(80,  90),fc="blue")
pos_list, labels = [], []
cds_track.xticks_by_interval(
    interval=500000,
    label_formatter=lambda label_value: f"{label_value/ 1000000:.1f} Mb",
    label_orientation="vertical")
fig = circos.plotfig().set_figwidth(5)

### 6.1.6 Visualización de los datos con seaborn

### Si queremos realizar una examinación más exhaustiva, podemos usar una serie de swarmplots en donde podemos comparar las posiciones de los genes en el dataframe completo, separando por categorias ("genes candidatos" vs "genes no candidatos") y por cadena ("+" vs "-")

### Con esta aproximación podemos identificar un par de operones enriquecido en genes candidatos, siendo el operón ubicado en la cadena negativa entre 3.35 Mbp y 3.45 Mbp

In [None]:
num_bins = 25
counter_1 = 0
counter_2 = 0
fig, axes = plt.subplots(5,5,figsize=(30,30))
bin_len  = (genome_length - (genome_length % (num_bins - 1))) / (num_bins)
for bin_num in range(num_bins):
    start_pos = bin_num * bin_len
    end_pos   = (bin_num + 1) * bin_len
    mb_df = gff_df.copy()
    mb_df = mb_df[(mb_df["start"]>start_pos) & (mb_df["end"]<=end_pos)]
    sns.swarmplot(ax = axes[counter_1,counter_2],data = mb_df,y="candidate",x="start",hue="strand",dodge=True,order=["exclude","include"],hue_order=["+","-"])
    axes[counter_1,counter_2].set(ylabel=None)
    counter_2 += 1
    if (counter_2%5 == 0):
        counter_2 = 0
        counter_1 += 1
plt.show()

# **7. Examinación a detalle del operón seleccionado**

### Para obtener aún más información acerca del operón que seleccionamos, podemos analizar las secuencias aminoacídicas de los genes de dicha región a través del servicio de búsqueda de dominios conservados de InterProScan

### Lo primero que debemos hacer es obtener los IDs de los genes presentes en dicho operón

In [None]:
operon_df = gff_df.copy()
operon_df = operon_df[(operon_df["start"]     >= 3350000) &
                      (operon_df["end"]       <= 3450000) &
                      (operon_df["strand"]    == "-")     &
                      (operon_df["candidate"] == "include")]
operon_df.reset_index(drop=True, inplace=True)

In [None]:
operon_gene_list = []
for index in operon_df.index.tolist():
    gene_id = operon_df["annotation"][index]["ID"]
    operon_gene_list.append(gene_id)

### Posteriormente, construiremos un *string* que contendrá las secuencias aminoacídicas de los genes de interés en formato fasta

### Este *string* lo enviaremos al servicio web de InterProScan para buscar dominios conservados en nuestras proteínas

> ### Antes de correr el servicio web, tenemos que eliminar los asteriscos de nuestras secuencias

In [None]:
query_str = ""

In [None]:
for record in SeqIO.parse(aa_file, "fasta"):
    seq_id  = record.id
    if(seq_id in operon_gene_list):
        seq_str = str(record.seq)
        query_str+=">"+seq_id+"\n"+seq_str+"\n"
query_str = query_str.replace("*","")

### El proceso de búsqueda de dominios lo dividiremos en tres etapas:

- #### Envío de las secuencias
- #### Consulta del status del envío
- #### Descarga de resultados

### Cada etapa tiene una URL específica la cual definiremos a continuación

In [None]:
submit_url   = "https://www.ebi.ac.uk/Tools/services/rest/iprscan5/run"
progress_url = "https://www.ebi.ac.uk/Tools/services/rest/iprscan5/status"
results_url  = "https://www.ebi.ac.uk/Tools/services/rest/iprscan5/result"

### De igual manera, cada etapa acepta headers específicos

In [None]:
submit_headers   = {"Accept":"text/plain"}
progress_headers = {"Accept":"text/plain"}
results_headers  = {"Accept":"text/tab-separated-values"}

## 7.1 Envío de las secuencias

### En esta etapa, construiremos un diccionario de python que adjuntaremos a `requests` para buscar los dominios funcionales

In [None]:
submit_data = {"email":"vflorelo@gmail.com",
               "title":"operon_335_345",
               "goterms":"false",
               "pathways":"false",
               "stype":"p",
               "sequence":query_str}

### Y ya con los datos listos enviamos nuestra solicitud a InterProScan

In [None]:
submit_request = requests.post(submit_url,data=submit_data,headers=submit_headers)

### La API de InterProScan entrega un código de estado y un `job_id`.

> ### El código de salida del servidor web, nos indican si la solicitud fue exitosa:
>> * 1xx informational response – the request was received, continuing process
>>* 2xx successful – the request was successfully received, understood, and accepted
>> * 3xx redirection – further action needs to be taken in order to complete the request
>> * 4xx client error – the request contains bad syntax or cannot be fulfilled
>> * 5xx server error – the server failed to fulfil an apparently valid request

### Si el servidor nos entrega un código de estado 200, nuestras secuencias entraron en el servicio web

### Con el siguiente código podemos obtener tanto nuestro `job_id` como el código de estado

In [None]:
submit_status_code = submit_request.status_code
submit_job_id      = submit_request.text

In [None]:
print(submit_status_code)
print(submit_job_id)

## 7.2 Progreso del análisis de las secuencias

### Con nuestro `job_id` podemos consultar el progreso del análisis con las siguientes líneas de código

In [None]:
progress_request     = requests.get(progress_url+"/"+submit_job_id,headers=progress_headers)
progress_status_code = progress_request.status_code
progress_status      = progress_request.text
print(progress_status_code)
print(progress_status)

### Nuevamente, si el servidor nos entrega un código de estado 200, nuestra consulta fue exitosa

## 7.3 Obtención de los resultados

### Si el estado del análisis es "FINISHED", podemos consultar el resultado de nuestro análisis

- ### `log` para acceder al reporte de texto del programa
- ### `tsv` para acceder al reporte tabular programa

In [None]:
results_log_request = requests.get(results_url+"/"+submit_job_id+"/log",headers=results_headers)
results_tsv_request = requests.get(results_url+"/"+submit_job_id+"/tsv",headers=results_headers)

In [None]:
print(results_log_request.text)

## 7.4 Examinación de los datos de dominios conservados

### Finalmente, usaremos la biblioteca StringIO para incorporar nuestros resultados de `requests` en un nuevo dataframe

In [None]:
results_tsv_str = StringIO(results_tsv_request.text)
results_column_names = ["sequence","md5","length","database","accession","description","start","end","evalue","post_processed","date","entry","name"]
results_df = pd.read_csv(results_tsv_str,sep="\t",names=results_column_names)

In [None]:
results_df

# **8. Resumen del ejercicio**

## En este ejercicio empleamos diversas bibliotecas que nos permitieron:

- ### Descargar secuencias genómicas no anotadas de GenBank
- ### Predecir secuencias codificantes en dicho genoma
- ### Obtener secuencias de referencia de UniProt asociadas a una ruta metabólica o a un proceso molecular
- ### Comparar las secuencias de referencia contra nuestras predicciones para determinar si en nuestro genoma hay genes codificantes asociados a la ruta metabólica o proceso que especificamos en la búsqueda de secuencias de UniProt
- ### Visualizar los datos genómicos a nivel grueso (pyCirclize) y a nivel fino (seaborn)
- ### Filtrar nuestros resultados para analizar unicamente un subset de secuencias, potencialmente asociadas a la ruta metabólica o al proceso molecular de interés
- ### Búsqueda de dominios funcionales en el subset de proteínas de interés