# Objetivo
Este script es el segundo de una serie de scripts utilizados en el TFM para crear un corpus adicional de notas con el que enriquecer el conjunto de entrenamiento de MEDDOPROF.

Como input, lee todos los identificadores de las notas que debemos anotar, obtenidas gracias al script `1NotasARevisar`

Como output, crea una carpeta en la que se almacenaran todas las notas en .txt  a anotar. Es decir, copia los ficheros contenidos en distintas carpetas de distintos corpus a un directorio común para anotar las notas candidatas.

En este script se presentan dos formas de hacerlo:

1. Individual: seleccionamos únicamente de qué carpeta queremos obtener las notas
2. Conjunto: seleccionamos todos los directorios de notas de los cuales queremos obtener las notas para anotar


Si el directorio contiene un archivo de los de la lista (en esta lista están almacenados los índices de las carpetas a anotar), lo copiamos en otra carpeta: 
https://stackoverflow.com/questions/51528103/python-copying-specific-files-from-a-list-into-a-new-folder

## Individual

Sólo seleccionamos un directorio con notas. Este enfoque lo usamos para hacer pruebas, pero finalmente optamos por usar el enfoque conjunto

In [None]:
# Cargamos las librerías necesarias
import numpy as np
import pandas as pd
import re
import os, glob
from sklearn.datasets import load_files
import shutil

# Habilitamos display interactivo y enlace con nuestra cuenta de google
from google.colab import data_table
from google.colab import drive

# Enlazamos nuestro notebook en Colab con nuestro almacenamiento en Google Drive 
drive.mount('/content/drive')

In [None]:
# Define relative path to folder containing the text files
files_folder = "/content/drive/MyDrive/Colab Notebooks/anotar/indices"
archivosAnotar = []

# Create a dataframe list by using a list comprehension
archivosAnotar = [pd.read_csv(file, delimiter='\t', names =['nota'] ) for file in glob.glob(os.path.join(files_folder ,"*.txt"))]

# Concatenate the list of DataFrames into one
archivosAnotar = pd.concat(archivosAnotar)
archivosAnotar = archivosAnotar.drop_duplicates()
archivosAnotar = archivosAnotar['nota'].map('{}.txt'.format)

# Sacamos la lista de archivos que queremos
archivosAnotar = archivosAnotar.iloc[1:].tolist()
len(archivosAnotar)

In [None]:
carpeta_a_copiar = "/content/drive/MyDrive/Colab Notebooks/Corpus/BARR2/background"
carpeta_destino = "/content/drive/MyDrive/Colab Notebooks/anotar/notas"

In [None]:
# Sacamos el nombre de todas las notas en el directorio
# list to store files
notas_carpeta_a_copiar = []

# Iterate directory
for path in os.listdir(carpeta_a_copiar):
    # check if current path is a file
    if os.path.isfile(os.path.join(carpeta_a_copiar, path)):
        notas_carpeta_a_copiar.append(path)
print(notas_carpeta_a_copiar)


In [None]:
#Notas comunes
archivos = (set(notas_carpeta_a_copiar)).intersection(set(archivosAnotar))
archivos = list(archivos)
len(archivos)

In [None]:
len(archivos)

In [None]:
range(0,len(archivos))

In [None]:
for i in range(0,len(archivos)):
  if os.path.exists(carpeta_destino + "/" + archivos[i]):
  #if path.exists(carpeta_destino + "/" + archivos[i]):
    next
  shutil.copyfile(carpeta_a_copiar + "/" + archivos[i], carpeta_destino + "/" + archivos[i])
  print(i)

## Conjunto

In [None]:
# Cargamos las librerías necesarias
import numpy as np
import pandas as pd
import re
import os, glob
from sklearn.datasets import load_files
import shutil

# Habilitamos display interactivo y enlace con nuestra cuenta de google
from google.colab import data_table
from google.colab import drive

# Enlazamos nuestro notebook en Colab con nuestro almacenamiento en Google Drive 
drive.mount('/content/drive')

In [None]:
# Directorio con los índices (nombres) de las notas a anotar
files_folder = "/content/drive/MyDrive/Colab Notebooks/anotar/indices"
archivosAnotar = []

# Lista de listas con los índices. Contiene 6 elementos (listas BARR2,  CANTEMIST, CODIESP, LIVINGNER, MEDDOCAN, PHARMACONER)
archivosAnotar = [pd.read_csv(file, delimiter='\t', names =['nota'] ) for file in glob.glob(os.path.join(files_folder ,"*.txt"))]

# Concatenamos las seis listas en una sola
archivosAnotar = pd.concat(archivosAnotar)
archivosAnotar = archivosAnotar.drop_duplicates()

# Añadimos la extensión .txt
archivosAnotar = archivosAnotar['nota'].map('{}.txt'.format)

# Sacamos la lista de archivos que queremos
archivosAnotar = archivosAnotar.iloc[1:].tolist()
len(archivosAnotar)

Debemos localizar las notas de cada corpus identificadas y que deben ser copiadas a un directorio en común dentro de cada corpus

In [None]:
carpeta_destino = "/content/drive/MyDrive/Colab Notebooks/anotar/NotasDefinitivas"

# Descomentar las carpetas con historias a copiar
lista_carpetas_a_copiar = ["/content/drive/MyDrive/Colab Notebooks/Corpus/BARR2/background",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/BARR2/dev",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/BARR2/test",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/BARR2/train",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/CANTEMIST/background-set",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/CANTEMIST/dev1",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/CANTEMIST/dev2",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/CANTEMIST/test",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/CANTEMIST/train",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/CODIESP/background",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/CODIESP/dev",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/CODIESP/test",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/CODIESP/train",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/LIVINGNER/dev",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/LIVINGNER/test",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/LIVINGNER/train",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/MEDDOCAN/dev",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/MEDDOCAN/test",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/MEDDOCAN/train",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/PHARMACONER/background",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/PHARMACONER/dev",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/PHARMACONER/test",
                           "/content/drive/MyDrive/Colab Notebooks/Corpus/PHARMACONER/train"]

Hacemos un bucle que nos permita recorrer todas las carpetas de cada corpus, dentro de esas carpetas buscamos las notas contenidas en archivosAnotar y las copiamos en la carpeta destino: NotasDefinitivas

In [None]:
for carpeta in range(0,len(lista_carpetas_a_copiar)):
  print("Carpeta a copiar:", lista_carpetas_a_copiar[carpeta])

  # Sacamos el nombre de todas las notas en el directorio
  notas_carpeta_a_copiar = []
  for path in os.listdir(lista_carpetas_a_copiar[carpeta]):
    if os.path.isfile(os.path.join(lista_carpetas_a_copiar[carpeta], path)):
      notas_carpeta_a_copiar.append(path)
  print(notas_carpeta_a_copiar)

  #Notas comunes que hay en el directorio y en las notas a copiar (las 569 que queremos)
  archivos = (set(notas_carpeta_a_copiar)).intersection(set(archivosAnotar))
  archivos = list(archivos)
  print("Número de notas en: ", lista_carpetas_a_copiar[carpeta], "comunes: ", len(archivos))

  #Copiamos las notas a la carpeta de destino
  for i in range(0,len(archivos)):
    if os.path.exists(carpeta_destino + "/" + archivos[i]):
      #if path.exists(carpeta_destino + "/" + archivos[i]):
      next
    shutil.copyfile(lista_carpetas_a_copiar[carpeta] + "/" + archivos[i], carpeta_destino + "/" + archivos[i])
    print(i)


El output de este script es un directorio común que contiene todas las notas a anotar