In [None]:
# Importar las librerías necesarias
from flask import Flask, request, jsonify
import requests
import os
import logging
from dotenv import load_dotenv
import re
from ftplib import FTP
from urllib.parse import urlparse

# Cargar variables de entorno para mayor seguridad
load_dotenv()
API_KEY = os.getenv("NCBI_API_KEY")

# Crear la instancia de la app Flask
app = Flask(__name__)

# Configuración de seguridad
app.config["JSONIFY_PRETTYPRINT_REGULAR"] = False
app.secret_key = os.urandom(24)

# Configurar logging seguro
logging.basicConfig(level=logging.INFO, format='%(asctime)s %(levelname)s %(message)s')
logger = logging.getLogger()

# Endpoints base de NCBI
NCBI_BASE_URL = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi"
NCBI_FETCH_URL = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi"

# Función para validar entradas (sanitización)
def sanitize_input(user_input):
    return re.sub(r'[^a-zA-Z0-9_ ]', '', user_input)

# Ruta principal para buscar y descargar datos RNA-seq de hipocampo del cerebro
@app.route('/fetch_rnaseq_data', methods=['POST'])
def fetch_rnaseq_data():
    try:
        # Obtener los parámetros de búsqueda desde la solicitud
        data = request.get_json()
        organism = sanitize_input(data.get('organism', ''))
        tissue = sanitize_input(data.get('tissue', 'hippocampus'))
        data_type = sanitize_input(data.get('data_type', 'rna-seq'))

        if not organism:
            return jsonify({"error": "Organism field is required."}), 400

        # Construir la consulta segura para NCBI
        query = f"{organism} {tissue} {data_type}"
        params = {
            'db': 'gds',
            'term': query,
            'retmode': 'json',
            'api_key': API_KEY
        }

        # Hacer la solicitud al endpoint de búsqueda de NCBI
        response = requests.get(NCBI_BASE_URL, params=params, timeout=10)
        response.raise_for_status()
        result = response.json()

        # Procesar los IDs de los estudios encontrados
        id_list = result.get('esearchresult', {}).get('idlist', [])
        if not id_list:
            return jsonify({"message": "No data found for the specified query."}), 404

        # Enumerar y descargar archivos de cada estudio encontrado
        record_counter = 1
        for study_id in id_list:
            summary_params = {
                'db': 'gds',
                'id': study_id,
                'retmode': 'json',
                'api_key': API_KEY
            }
            summary_response = requests.get(NCBI_FETCH_URL, params=summary_params, timeout=10)
            summary_response.raise_for_status()
            summary_result = summary_response.json()

            # Extraer enlaces FTP de los detalles del estudio
            ftp_links = extract_ftp_links(summary_result)

            # Descargar los archivos de cada enlace FTP
            for link in ftp_links:
                download_files_from_ftp(link, record_counter)

            record_counter += 1

        return jsonify({"message": "All data fetched and saved successfully."}), 200

    except requests.exceptions.RequestException as e:
        logger.error(f"Error fetching data from NCBI: {e}")
        return jsonify({"error": "Failed to fetch data from NCBI."}), 500
    except Exception as e:
        logger.error(f"Unexpected error: {e}")
        return jsonify({"error": "An unexpected error occurred."}), 500

# Función para extraer enlaces FTP de la respuesta del estudio
def extract_ftp_links(summary_result):
    ftp_links = []
    docsum_list = summary_result.get('result', {}).get('uids', [])
    for uid in docsum_list:
        docsum = summary_result.get('result', {}).get(uid, {})
        ftp_link = docsum.get('ftp_site', None)  # Ajustar si el campo tiene otro nombre
        if ftp_link:
            ftp_links.append(ftp_link)
    return ftp_links

# Función para descargar archivos desde un enlace FTP
def download_files_from_ftp(ftp_url, record_counter):
    try:
        parsed_url = urlparse(ftp_url)
        ftp_host = parsed_url.hostname
        ftp_directory = os.path.dirname(parsed_url.path)
        file_name = os.path.basename(parsed_url.path)

        # Ruta en la que se guardarán los archivos descargados
        download_directory = r"\\wsl$\Ubuntu\home\caheri_salas\db_scRNAseq"
        
        # Crear la carpeta de descarga principal si no existe
        if not os.path.exists(download_directory):
            os.makedirs(download_directory)

        # Crear una subcarpeta para cada estudio
        study_directory = os.path.join(download_directory, f"study_{record_counter}")
        if not os.path.exists(study_directory):
            os.makedirs(study_directory)

        # Conectarse al servidor FTP y descargar todos los archivos del directorio
        with FTP(ftp_host) as ftp:
            ftp.login()
            ftp.cwd(ftp_directory)

            # Listar archivos en el directorio
            files = ftp.nlst()

            # Descargar cada archivo en la carpeta específica del estudio
            for file in files:
                local_file_path = os.path.join(study_directory, file)
                with open(local_file_path, 'wb') as local_file:
                    ftp.retrbinary(f"RETR {file}", local_file.write)
                logger.info(f"Archivo descargado: {file} en {local_file_path}")

    except Exception as e:
        logger.error(f"Error al descargar desde FTP: {ftp_url} - {e}")

# Medida de seguridad: limitar métodos HTTP
@app.route('/health', methods=['GET'])
def health_check():
    return jsonify({"status": "API is running."}), 200

# Ejecutar la aplicación de Flask
if __name__ == '__main__':
    # Solo permitir conexiones locales (evitar exposición pública durante desarrollo)
    app.run(host='127.0.0.1', port=5000, debug=False)




 * Serving Flask app '__main__'
 * Debug mode: off


 * Running on http://127.0.0.1:5000
2024-12-04 02:51:00,645 INFO [33mPress CTRL+C to quit[0m
