# Obtención de moleculas a partir de datos de NCBI

Se pretende realizar una búsqueda de estructuras proteicas en el PDB (Protein Data Bank) utilizando el nombre de un gen y un organismo específicos, obtenidos de NCBI. Si no hay estructuras asociadas con el gen y organismo indicados, el script no generará ningún resultado, y no se imprimirá nada.
Los paquetes requeridos para esta primer parte son:
- rcsbsearchapi - interactura con las bases de datos
- attrs - maneja los atributos asociados a la consulta

A partir de la lista de resultados obtenidos, es recomendable realizar una evaluación de las estructuras con el fin de evaluar las caracteristicas de cada una. posteriormente, se selecionará y descargara alguna de las moleculas. 

Requerimientos 
- requests - solicitudes HTTP, en este caso, para descargar el archivo PDB desde el servidor del PDB.

In [1]:
from rcsbsearchapi.search import TextQuery
from rcsbsearchapi import rcsb_attributes as attrs

# OBTENCION DE PROTEINAS A PARTIR DE DATOS OBTENIDOS DE NCBI
gene_name = "SLC6A4"  # Nombre del gen a buscar
organism_name = "Homo sapiens"  # Nombre del organismo

# Consulta y obtencion de estructuras en PDB databank
q1 = attrs.rcsb_entity_source_organism.rcsb_gene_name.value == gene_name
q2 = attrs.rcsb_entity_source_organism.scientific_name == organism_name
query = q1 & q2
results = list(query())
print("Estructuras encontradas:", results)
#Si el nombre del gen no esta asociado a ninguna estructura dentro de PDB databank,
#el algortimo no generara resultados. 
pdb_id = '5I6X' #modificable
print("Estructura seleccionada:",pdb_id)

import os  # Para manejar directorios
import requests  # Para descargar archivos

# Realiza un directorio para los archivos PDB 
protein_directory = "protein_structures"
os.makedirs(protein_directory, exist_ok=True) #si no se tiene un directorio generado, desmarcar

# Descarga de la estructura PDB
pdb_request = requests.get(f"https://files.rcsb.org/download/{pdb_id}.pdb")

if pdb_request.status_code == 200:
    # Almacenamiento del archivo PDB
    with open(f"{protein_directory}/{pdb_id}.pdb", "w+") as f:
        f.write(pdb_request.text)
    print(f"Estructura {pdb_id} descargada y guardada en {protein_directory}/")
else:
    print(f"Error al descargar la estructura {pdb_id}. Código de estado: {pdb_request.status_code}")
#VISUALIZACION DE LA ESTRUCTURA DE PROTEINA
import MDAnalysis as mda
pdb_file = f"protein_structures/{pdb_id}.pdb"
u = mda.Universe(pdb_file)
print(u)
import nglview as nv
view=nv.show_mdanalysis(u) #visualizar estructura
view

Estructuras encontradas: ['5I6X', '5I6Z', '5I71', '5I73', '5I74', '5I75', '6AWN', '6AWO', '6AWP', '6AWQ', '6DZV', '6DZW', '6DZY', '6DZZ', '6VRH', '6VRK', '6VRL', '6W2B', '6W2C', '7LI6', '7LI7', '7LI8', '7LI9', '7LIA', '7LWD', '7MGW', '7TXT']
Estructura seleccionada: 5I6X
Estructura 5I6X descargada y guardada en protein_structures/




<Universe with 7631 atoms>




NGLWidget()