### Importar librerías

In [None]:
import os
import platform
import datetime
import logging
import gzip
import shutil
import urllib

# importar fichero con utilidades propias
from commons import myfunctions as myfunc

start_time = datetime.datetime.now()


### Variables globales


In [None]:
myfunc.reset_vars()
myfunc.NOTEBK_FILENAME = myfunc.get_nb_name()

myfunc.check_enviroment(myfunc.DATA_DIR, myfunc.CFDNA_DIR, myfunc.GENCODE_DIR, myfunc.H5_DIR, myfunc.LOG_DIR, myfunc.CSV_DIR, myfunc.MODEL_DIR, myfunc.EXEC_DIR, myfunc.MET_DIR)

myfunc.print_vars()

### Descargar los ficheros de Gene Expression Omnibus

(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi)

In [None]:
direcciones = [ "https://ftp.ncbi.nlm.nih.gov/geo/series/GSE202nnn/GSE202988/suppl/GSE202988_5hmC_ReadCount_BinnedGenome_Bladder.txt.gz",
                "https://ftp.ncbi.nlm.nih.gov/geo/series/GSE202nnn/GSE202988/suppl/GSE202988_5hmC_ReadCount_BinnedGenome_Breast.txt.gz",
                "https://ftp.ncbi.nlm.nih.gov/geo/series/GSE202nnn/GSE202988/suppl/GSE202988_5hmC_ReadCount_BinnedGenome_Colorectal.txt.gz",
                "https://ftp.ncbi.nlm.nih.gov/geo/series/GSE202nnn/GSE202988/suppl/GSE202988_5hmC_ReadCount_BinnedGenome_Control.txt.gz",
                "https://ftp.ncbi.nlm.nih.gov/geo/series/GSE202nnn/GSE202988/suppl/GSE202988_5hmC_ReadCount_BinnedGenome_Kidney.txt.gz",
                "https://ftp.ncbi.nlm.nih.gov/geo/series/GSE202nnn/GSE202988/suppl/GSE202988_5hmC_ReadCount_BinnedGenome_Lung.txt.gz",
                "https://ftp.ncbi.nlm.nih.gov/geo/series/GSE202nnn/GSE202988/suppl/GSE202988_5hmC_ReadCount_BinnedGenome_Prostate.txt.gz"]

for url1 in direcciones:
    myfunc.verbose(f"Descargando {url1}")
    nombre_fichero = os.path.basename(url1)
    ubicacion_fichero = os.path.join(myfunc.CFDNA_DIR, nombre_fichero)
    if os.path.exists(ubicacion_fichero):
        myfunc.verbose(f"Borre el fichero que ya existe '{ubicacion_fichero}' si quiere descargarlo de nuevo.")
    else:
        urllib.request.urlretrieve(url1, ubicacion_fichero)
        myfunc.verbose(f"Guardado fichero {ubicacion_fichero}")

#### Descomprimir los ficheros

In [None]:
for url1 in direcciones:
    nombre_fichero = os.path.basename(url1)
    nombre_fichero_txt, _ = os.path.splitext(nombre_fichero)
    ubicacion_fichero_entrada = os.path.join(myfunc.CFDNA_DIR, nombre_fichero)
    ubicacion_fichero_salida = os.path.join(myfunc.CFDNA_DIR, f"{nombre_fichero_txt}")

    with gzip.open(ubicacion_fichero_entrada, "rb") as fichero_entrada, open(ubicacion_fichero_salida, "wb") as fichero_salida:
        shutil.copyfileobj(fichero_entrada, fichero_salida)

    myfunc.verbose(f"Descomprimido fichero {nombre_fichero} en {nombre_fichero_txt}")


### Descarga de fichero de GenCode 

(https://www.gencodegenes.org/human/)

In [None]:

direcciones = ["https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_44/gencode.v44.primary_assembly.annotation.gtf.gz"]

for url1 in direcciones:
    myfunc.verbose(f"Descargando {url1}")
    nombre_fichero = os.path.basename(url1)
    ubicacion_fichero = os.path.join(myfunc.GENCODE_DIR, nombre_fichero)
    if os.path.exists(ubicacion_fichero):
        myfunc.verbose(f"Borre el fichero que ya existe '{ubicacion_fichero}' si quiere descargarlo de nuevo.")
    else:
        urllib.request.urlretrieve(url1, ubicacion_fichero)
        myfunc.verbose(f"Guardado fichero {ubicacion_fichero}")

#### Descomprimir el fichero

In [None]:
for url1 in direcciones:
    nombre_fichero = os.path.basename(url1)
    nombre_fichero_txt, _ = os.path.splitext(nombre_fichero)
    ubicacion_fichero_entrada = os.path.join(myfunc.GENCODE_DIR, nombre_fichero)
    ubicacion_fichero_salida = os.path.join(myfunc.GENCODE_DIR, f"{nombre_fichero_txt}")

    with gzip.open(ubicacion_fichero_entrada, "rb") as fichero_entrada, open(ubicacion_fichero_salida, "wb") as fichero_salida:
        shutil.copyfileobj(fichero_entrada, fichero_salida)

    myfunc.verbose(f"Descomprimido fichero {nombre_fichero} en {nombre_fichero_txt}")


### Finalización

In [None]:
end_time = datetime.datetime.now()
total_time = end_time - start_time
myfunc.verbose(f"Notebook ha tardado {total_time} segundos")