# **Active Learning Parte 2 - YOLOv8**
**Tutorial seguido de**: [Import Pre-annotated images to Label-Studio](https://labelstud.io/blog/tutorial-importing-local-yolo-pre-annotated-images-to-label-studio/)

**Paso 1.**
- Crear el siguiente directorio: `C:\\yolo\\datasets`.
- Adentro colocar una carpeta con el nombre de tu dataset. Por convención se trabaja con 'one' aunque se puede poner el nombre que se desee. De forma que la ruta de la carpeta es la siguinete: `c:\yolo\datasets\one` o `c:\yolo\datasets\hemileia`, etc.
- Dentro de `one` crear las carpetas `images`, `labels`, junto con un archivo que se llame `classes.txt`. De forma que dentro de `one` existan 2 carpetas y 1 archivo .txt.
- Dentro del archivo `classes.txt` colocar simplemente el nombre de clase etiquetada (sin absolutamente nada más). Por ejemplo, si tu clase se llama "Hemeleia", escribir: Hemeleia
  
  
**Paso 2.**
En Conda prompt:
* Cargar el ambiente de Label Studio empleado `conda activate`.
* Escribir las siguinetes dos líneas:
    * set LABEL_STUDIO_LOCAL_FILES_SERVING_ENABLED=true
    * set LABEL_STUDIO_LOCAL_FILES_DOCUMENT_ROOT=C:\\yolo\\datasets

**Paso 3.**
* Abrir LabelStudio
* Crear un proyecto sin ninguna Label Interface.
* En *Add Source Storage* poner el path absoluto `c:\yolo\datasets\one\images`. Notar que si en lugar de `one` se empleó otro nombre, habrá que colocar ese nuevo nombre. Por ejemplo: `c:\yolo\datasets\hemileia\images`.
* Presionar en *Add*, luego en *Sync*. *Nota: probablemente aparezca como *Failed*. Es normal*.
* Cerrar LabelStudio con `crtl+c`

**Paso 4.**
* Colocar dentro de `images` las imágenes de tu dataset.
* Colocar dentro de `labels` las etiquetas .txt.
* Emplear el siguiente código con el fin de hacer una correcciones a los archivos txt dentro de labels.: 

In [3]:
import os

# Directorio que contiene los archivos .txt con las etiquetas
labels_dir = r"C:\yolo\datasets\hemileia_predicted\labels" # Colocar la ruta correcta de labels <----

# Función para eliminar el último valor decimal en cada línea y guardar en el mismo archivo
def remove_last_value(labels_dir):
    for file_name in os.listdir(labels_dir):
        if file_name.endswith(".txt"):
            file_path = os.path.join(labels_dir, file_name)
            
            with open(file_path, 'r') as file:
                lines = file.readlines()
            
            new_lines = []
            for line in lines:
                parts = line.strip().split()
                if len(parts) == 6:  # Asegurarse de que haya 6 valores en la línea
                    parts = parts[:5]  # Eliminar el último valor
                new_lines.append(' '.join(parts) + '\n')
            
            with open(file_path, 'w') as file:
                file.writelines(new_lines)
            print(f"Updated labels in {file_path}")

# Eliminar el último valor decimal en cada línea de los archivos en el directorio
remove_last_value(labels_dir)

Updated labels in C:\yolo\datasets\hemileia_predicted\labels\Cronartium14.txt
Updated labels in C:\yolo\datasets\hemileia_predicted\labels\Cronartium143.txt
Updated labels in C:\yolo\datasets\hemileia_predicted\labels\Cronartium145.txt
Updated labels in C:\yolo\datasets\hemileia_predicted\labels\Cronartium147.txt
Updated labels in C:\yolo\datasets\hemileia_predicted\labels\Cronartium148.txt
Updated labels in C:\yolo\datasets\hemileia_predicted\labels\Cronartium152.txt
Updated labels in C:\yolo\datasets\hemileia_predicted\labels\Cronartium153.txt
Updated labels in C:\yolo\datasets\hemileia_predicted\labels\Cronartium175.txt
Updated labels in C:\yolo\datasets\hemileia_predicted\labels\Cronartium178.txt
Updated labels in C:\yolo\datasets\hemileia_predicted\labels\Cronartium190.txt
Updated labels in C:\yolo\datasets\hemileia_predicted\labels\Cronartium206.txt
Updated labels in C:\yolo\datasets\hemileia_predicted\labels\Cronartium219.txt
Updated labels in C:\yolo\datasets\hemileia_predicted

**Paso 5.**
* En conda prompt escribir lo siguiente:
* label-studio-converter import yolo -i /yolo/datasets/one -o output.json --image-root-url "/data/local-files/?d=one/images"
  
*Nota: cambiar `one` por el nombre de tu carpeta del dataset.*

El código anterior generará un archivo `.json` guardado en la ruta de tu ambiente, es decir, en conda prompt aparece la siguinete ruta al escribir un comando:
`([nombre_de_tu_ambiente]) C:\users\[usuario]:`. Tu archivo se guardará en dicha ruta.

**Paso 6.**
* Abrir nuevamente LabelStudio.
* En el proyecto que se creó importar el archivo `.json` creado.
* Ir a `settings`, luego a `label Interface`.
* En `code` escribir lo siguiente: 


In [1]:
#Formato xml:
"""

<View>
  <RectangleLabels name="label" toName="image">
    <Label value="Hemelia" background="green"/>
  </RectangleLabels>

  <Image name="image" value="$image"/>
</View>


"""

'\n\n<View>\n  <RectangleLabels name="label" toName="image">\n    <Label value="Hemelia" background="green"/>\n  </RectangleLabels>\n\n  <Image name="image" value="$image"/>\n</View>\n\n\n'

*Notar que `value:""` debe ser reemplazado por el valor que se empleó en el archivo `classes.txt`* 

Archivo .yaml:

names:
- Avena
- I.Lacumosa
- Malva_Porviflora
- Xhantium
- Aegylops
- P.Convolvulus
- Heredacea
- Qualium_Aparine
- Ambrosia
- Otra
nc: 10
train: train
val: valid
pr

---
Luego del active learning se dividrán 352 elementos.

In [4]:
import os
import shutil
import random

# Define las rutas
base_path = r"C:\Users\AlxMa\Downloads\project-18-at-2024-06-16-13-17-33563881"
images_path = os.path.join(base_path, "images")
labels_path = os.path.join(base_path, "labels")

# Ruta para los nuevos datasets
datasets_path = os.path.join(base_path, "datasets")
train_images_path = os.path.join(datasets_path, "train", "images")
train_labels_path = os.path.join(datasets_path, "train", "labels")
valid_images_path = os.path.join(datasets_path, "valid", "images")
valid_labels_path = os.path.join(datasets_path, "valid", "labels")

# Crear las carpetas si no existen
os.makedirs(train_images_path, exist_ok=True)
os.makedirs(train_labels_path, exist_ok=True)
os.makedirs(valid_images_path, exist_ok=True)
os.makedirs(valid_labels_path, exist_ok=True)

# Obtener lista de archivos
image_files = os.listdir(images_path)
label_files = os.listdir(labels_path)

# Asegurarse de que las listas de archivos coincidan
image_files.sort()
label_files.sort()

# Comprobar si las listas de imágenes y etiquetas tienen el mismo número de archivos
if len(image_files) != len(label_files):
    print("El número de imágenes y etiquetas no coincide.")
else:
    # Emparejar archivos de imágenes y etiquetas
    paired_files = list(zip(image_files, label_files))

    # Mezclar los archivos
    random.shuffle(paired_files)

    # Calcular el índice de división
    split_index = int(len(paired_files) * 0.8)

    # Dividir los archivos en entrenamiento y validación
    train_files = paired_files[:split_index]
    valid_files = paired_files[split_index:]

    # Función para mover archivos
    def move_files(file_pairs, dest_images_path, dest_labels_path):
        for img_file, lbl_file in file_pairs:
            shutil.move(os.path.join(images_path, img_file), os.path.join(dest_images_path, img_file))
            shutil.move(os.path.join(labels_path, lbl_file), os.path.join(dest_labels_path, lbl_file))

    # Mover archivos de entrenamiento
    move_files(train_files, train_images_path, train_labels_path)

    # Mover archivos de validación
    move_files(valid_files, valid_images_path, valid_labels_path)

    print("División completada. Archivos movidos a las carpetas correspondientes.")

División completada. Archivos movidos a las carpetas correspondientes.


Crear carpeta "to_pred" con las imágenes restantes del dataset

In [6]:
import os
import shutil

# Definir las rutas
hemileia_images_path = r"C:\yolo\datasets\hemileia_predicted\images" # Ruta donde se encuentran todas las imágenes
datasets_path = r"C:\Users\AlxMa\Downloads\project-18-at-2024-06-16-13-17-33563881\datasets" # Ruta donde se encuentran las imágenes de  prueba y entranmeinto 
train_images_path = os.path.join(datasets_path, "train", "images")
valid_images_path = os.path.join(datasets_path, "valid", "images")
to_pred_path = os.path.join(datasets_path, "to_pred")

# Crear la carpeta to_pred si no existe
os.makedirs(to_pred_path, exist_ok=True)

# Obtener lista de archivos en train y valid
train_files = os.listdir(train_images_path)
valid_files = os.listdir(valid_images_path)

# Crear un set con los nombres de archivos en train y valid para una búsqueda rápida
existing_files = set(train_files + valid_files)

# Obtener lista de archivos en hemileia/images
hemileia_files = os.listdir(hemileia_images_path)

# Copiar archivos que no estén en existing_files a la carpeta to_pred
for file in hemileia_files:
    if file not in existing_files:
        src_file = os.path.join(hemileia_images_path, file)
        dest_file = os.path.join(to_pred_path, file)
        shutil.copy(src_file, dest_file)
        print(f"Copiado: {file}")

print("Proceso completado. Archivos copiados a la carpeta to_pred.")

Copiado: Cronartium530.jpg
Copiado: Cronartium534.jpg
Copiado: Cronartium535.jpg
Copiado: Cronartium536.jpg
Copiado: Cronartium537.jpg
Copiado: Cronartium540.jpg
Copiado: Cronartium541.jpg
Copiado: Cronartium542.jpg
Copiado: Cronartium547.jpg
Copiado: Cronartium558.jpg
Copiado: Cronartium559.jpg
Copiado: Cronartium562.jpg
Copiado: Cronartium564.jpg
Copiado: Cronartium565.jpg
Copiado: Cronartium566.jpg
Copiado: Cronartium567.jpg
Copiado: Cronartium569.jpg
Copiado: Cronartium574.jpg
Copiado: Cronartium579.jpg
Copiado: Cronartium581.jpg
Copiado: Cronartium582.jpg
Copiado: Cronartium584.jpg
Copiado: Cronartium585.jpg
Copiado: Cronartium587.jpg
Copiado: Cronartium59.jpg
Copiado: Cronartium591.jpg
Copiado: Cronartium593.jpg
Copiado: Cronartium595.jpg
Copiado: Cronartium597.jpg
Copiado: Cronartium598.jpg
Copiado: Cronartium602.jpg
Copiado: Cronartium603.jpg
Copiado: Cronartium605.jpg
Copiado: Cronartium606.jpg
Copiado: Cronartium608.jpg
Copiado: Cronartium613.jpg
Copiado: Cronartium615.jpg
Co

Verificar que todas las eituqetas sean la misma:

In [8]:
import os

# Definir la ruta a la carpeta de etiquetas
labels_path = r"C:\Users\AlxMa\Desktop\hemileia\labels"

# Función para cambiar todas las etiquetas a '0'
def set_labels_to_zero(labels_path):
    label_files = os.listdir(labels_path)
    for lbl_file in label_files:
        lbl_file_path = os.path.join(labels_path, lbl_file)
        with open(lbl_file_path, 'r') as file:
            lines = file.readlines()
        with open(lbl_file_path, 'w') as file:
            for line in lines:
                parts = line.strip().split()
                if len(parts) > 0:
                    parts[0] = '0'  # Cambiar la etiqueta a '0'
                    file.write(' '.join(parts) + '\n')

# Cambiar todas las etiquetas a '0' en la carpeta especificada
set_labels_to_zero(labels_path)
print("Todas las etiquetas se han cambiado a '0'.")


Todas las etiquetas se han cambiado a '0'.


--- 
Cambiar nombre a hemileia 


In [2]:
import os

# Ruta de la carpeta principal
ruta_carpeta_principal = r"C:\Users\AlxMa\Desktop\hemileia"

# Subcarpetas donde se encuentran los archivos
subcarpetas = ["images", "labels"]

# Iterar sobre las subcarpetas
for subcarpeta in subcarpetas:
    # Ruta completa de la subcarpeta
    ruta_subcarpeta = os.path.join(ruta_carpeta_principal, subcarpeta)
    # Listar todos los archivos en la subcarpeta
    archivos = os.listdir(ruta_subcarpeta)
    
    # Iterar sobre los archivos
    for archivo in archivos:
        # Comprobar si el archivo es un .jpg o .txt
        if archivo.endswith('.jpg') or archivo.endswith('.txt'):
            # Crear el nuevo nombre del archivo
            nuevo_nombre = archivo.replace('Cronartium', 'hemileia')
            # Obtener la ruta completa del archivo original y del nuevo archivo
            ruta_original = os.path.join(ruta_subcarpeta, archivo)
            ruta_nueva = os.path.join(ruta_subcarpeta, nuevo_nombre)
            # Renombrar el archivo
            os.rename(ruta_original, ruta_nueva)

print("Renombrado de archivos completado.")

Renombrado de archivos completado.
