***
### 1.configurar WEnv y WDir

In [None]:
# importar librerías
import os, sys, session_info, re

# comprobar WD
print(os.getcwd())

# mostrar dependencias
session_info.show()

In [None]:
def rm_head(string: str) -> str:
    """
    Elimina encabezados que comienzan con # de un texto.
    
    Args:
        string (str): Texto de entrada que puede contener encabezados
        
    Returns:
        str: Texto sin los encabezados que comenzaban con #
        
    Example:
        >>> text = "#Header\\nContent\\n#Another header\\nMore content"
        >>> rm_head(text)
        'Content\\nMore content'
    """
    header = r'^#.*$'
    string = re.sub(pattern=header, repl='', string=string, flags=re.MULTILINE)
    return string.strip()

***
### 2.procesado

Definir variables de rutas antes de ejecutar nada

In [None]:
# constructos en .txt
const_folder = f"./Anexo_1_carpeta_1_constructos/"         # folder con los constructos en .txt
const_1 = f"constructo_1_mesh_kidney_diseases.txt"         # constructo 1.txt
const_2 = f"constructo_2_adpkd.txt"                        # constructo 2.txt
const_3 = f"constructo_3_genes.txt"                        # constructo 3.txt
const_4 = f"constructo_4_omicas_bio_computacional.txt"     # constructo 4.txt
const_5 = f"constructo_5_biomarcadores.txt"                # constructo 5.txt

Ahora, a partir de los .txt construyo primero la query en PubMed, y luego la tconvierto a WOS

##### 2.1.constructo1:

In [None]:
# importar y convertir a string
c1_pm_path = f"{const_folder}/{const_1}"
with open(c1_pm_path, "r", encoding="utf-8") as file:
    f1 = file.read()

# eliminar headers y espacios en blanco sobrantes, añadir prefijo WOS y quitar [tiab]
f1 = rm_head(f1)
f1_wos = "TS=" + f1.replace('[tiab]', '')

# Eliminar términos Mesh (ya están representados en el resto de keywords)
# y añadir grupo de búsqueda para aumentar exhaustividad de la query --> esto detecta los artículos no indexados
mesh_term = '"Kidney Diseases/congenital"[Mesh] OR "Kidney Diseases/genetics"[Mesh] OR '
appendix = ' OR ("kidney disease*" AND ("congenital" OR "genetic*" OR "hereditary")))'
f1_wos = f1_wos.replace(mesh_term, '')[:-1] + appendix

# check result
h = 6*'*'
print(f"\n{h}\nPUBMED:\n{h}\n{f1}\n{h}\nWOS:\n{h}\n{f1_wos}")

##### 2.2.constructo2:

In [None]:
# importar y convertir a string
c2_pm_path = f"{const_folder}/{const_2}"
with open(c2_pm_path, "r", encoding="utf-8") as file:
    f2 = file.read()

# eliminar headers y espacios en blanco sobrantes, añadir prefijo WOS y quitar [tiab]
f2 = rm_head(f2)
f2_wos = "TS=" + f2.replace('[tiab]', '')

# check
h = 6*'*'
print(f"\n{h}\nPUBMED:\n{h}\n{f2}\n{h}\nSCOPUS:\n{h}\n{f2_wos}")

##### 2.3.constructo3:

In [None]:
# importar y convertir a string
c3_pm_path = f"{const_folder}/{const_3}"
with open(c3_pm_path, "r", encoding="utf-8") as file:
    f3 = file.read()

# eliminar headers y espacios en blanco sobrantes, añadir prefijo WOS y quitar [tiab]
f3 = rm_head(f3)
f3_wos = 'TS=' + f3.replace("[tiab]", "")

# check
h = 6*'*'
print(f"\n{h}\nPUBMED:\n{h}\n{f3}\n{h}\nSCOPUS:\n{h}\n{f3_wos}")

##### 2.4.constructo4:

In [None]:
# importar y convertir a string
c4_pm_path = f"{const_folder}/{const_4}"
with open(c4_pm_path, "r", encoding="utf-8") as file:
    f4 = file.read()

# eliminar headers y espacios en blanco sobrantes y añadir prefijo WOS
f4 = rm_head(f4)
f4_wos = 'TS=(' + f4 + ")"

# quitar [tiab] y términos MeSH
recambios = ['"Computational Biology"[Mesh] OR ', "[Mesh]", "[tiab]"]
for x in recambios:
    f4_wos = f4_wos.replace(x, '')

# check
h = 6*'*'
print(f"\n{h}\nPUBMED:\n{h}\n{f4}\n{h}\nSCOPUS:\n{h}\n{f4_wos}")

##### 2.5.constructo5:

In [None]:
# importar y convertir a string
c5_pm_path = f"{const_folder}/{const_5}"
with open(c5_pm_path, "r", encoding="utf-8") as file:
    f5 = file.read()

# eliminar headers y espacios en blanco sobrantes y añadir prefijo WOS
f5 = rm_head(f5)
f5_wos = 'TS=(' + f5 + ")"

# quitar [tiab] y términos MeSH
recambios = ["[Mesh]", "[tiab]"]
for x in recambios:
    f5_wos = f5_wos.replace(x, '')

# check
h = 6*'*'
print(f"\n{h}\nPUBMED:\n{h}\n{f5}\n{h}\nSCOPUS:\n{h}\n{f5_wos}")

***
***
### pubmed queries

In [None]:
# check
pm_qs = [f1, f2, f3, f4, f5]
for q in pm_qs:
    print("\n", q)

# definir directorio de salida
pm_dir = "Anexo_1_carpeta_2_PubMed_queries/"
# export to .txt
count = 0
for c in pm_qs:
    count += 1
    construct = c
    pmqs_path = f"{pm_dir}PM_query_{count}.txt"
    with open(pmqs_path, "w", encoding="utf-8") as file:
        file.write(construct)

***
***
### WOS queries

In [None]:
# checkear constructos WOS
wos_cs = [f1_wos, f2_wos, f3_wos, f4_wos, f5_wos]
for x in wos_cs:
    print(x, "\n")

# definir WOS_dir
WOS_dir = "Anexo_1_carpeta_3_WOS_queries/"
# export to .txt
count = 0
for c in wos_cs:
    count += 1
    construct = c
    wosc_path = f"{WOS_dir}WOS_query_{count}.txt"
    with open(wosc_path, "w", encoding="utf-8") as file:
        file.write(construct)