# Notebook 2: Reading Data / Notebook 2: Lectura de datos

Welcome! The main goal of this notebook is to read the Cubeset data and explore its characteristics.


 <hr style="border:2px solid gray">
 
¡Bienvenido! El objetivo principal de este cuaderno es leer los datos de Cubeset y explorar sus características.


---

#### Importing libraries / Importar bibliotecas

In [None]:

# Importing Matplotlib for creating visualizations and plots.
# Importación de Matplotlib para crear visualizaciones y gráficos.
import matplotlib.pyplot as plt  

# Importing the 'random' module for generating random numbers and making random selections.
# Importar el módulo 'random' para generar números aleatorios y hacer selecciones aleatorias.
import random  

# Importing NumPy, a library for numerical operations, used here for handling and manipulating image data arrays.
# Importación de NumPy, una biblioteca para operaciones numéricas, utilizada aquí para manejar y manipular matrices de datos de imagen.
import numpy as np  

---

### Reading the data from **Numpy** / Leer los datos con **Numpy**

In the `data` folder, you will find three types of datasets, each saved as numpy files along with their corresponding label files. These datasets are organized as follows:

1. `train_images.npy`: Contains images used for **training** machine and deep learning models. The associated labels are stored in train_labels.npy.
2. `val_images.npy`: Contains images used for **validating** the trained models. The corresponding labels are stored in val_labels.npy.
3. `test_images.npy`: Contains images used for **testing** the trained models. The associated labels are stored in test_labels.npy.

Let's now read and explore these datasets.


 <hr style="border:2px solid gray">
    

En la carpeta `data`, encontrarás tres tipos de conjuntos de datos, cada uno guardado como archivos numpy junto con sus correspondientes archivos de etiquetas. Estos conjuntos de datos están organizados de la siguiente manera

1. `train_images.npy`: Contiene imágenes utilizadas para **entrenar** modelos de aprendizaje automático y profundo. Las etiquetas asociadas se almacenan en train_labels.npy.
2. 2. `val_images.npy`: Contiene imágenes utilizadas para **validar** los modelos entrenados. Las etiquetas correspondientes se almacenan en val_labels.npy.
3. `test_images.npy`: Contiene imágenes utilizadas para **probar** los modelos entrenados. Las etiquetas correspondientes se almacenan en test_labels.npy.

Ahora vamos a leer y explorar estos conjuntos de datos.


In [None]:
import numpy as np

# Load the datasets /  Cargar los conjuntos de datos
train_images = np.load('data/train_images.npy')
train_labels = np.load('data/train_labels.npy')
val_images = np.load('data/val_images.npy')
val_labels = np.load('data/val_labels.npy')
test_images = np.load('data/test_images.npy')
test_labels = np.load('data/test_labels.npy')

# Print basic information about each dataset /  Imprimir información básica sobre cada conjunto de datos
print(f"Training images: {train_images.shape}, Training labels: {train_labels.shape}")
print(f"Validation images: {val_images.shape}, Validation labels: {val_labels.shape}")
print(f"Testing images: {test_images.shape}, Testing labels: {test_labels.shape}")


The training dataset consists of 9,711 samples of 512x512 RGB images, while the validation and testing sets each contain 3,237 samples.


 <hr style="border:2px solid gray">
    

El conjunto de datos de entrenamiento (training set) consta de 9.711 muestras de imágenes RGB de 512x512, mientras que los conjuntos de validación y prueba contienen 3.237 muestras cada uno.   

---

### Visualising the data /  Visualizar los datos

The dataset we will be working with contains five classes, described as follows:
- **Blurry**: Data captured while the satellite is in motion, resulting in blurred images.
- **Corrupt**: Images with defects from improper camera priming or stray light.
- **Missing Data**: Images with partial or complete data loss.
- **Noisy**: Images over-saturated with noise from radiation or other sources.
- **Priority**: Clear images suitable for scientific analysis on the ground.

Now, Let’s take a look at these datasets.

 <hr style="border:2px solid gray">
 
 
El conjunto de datos con el que trabajaremos contiene cinco clases, que se describen a continuación:
- **Borrosa** (Blurry): Datos capturados mientras el satélite está en movimiento, lo que da lugar a imágenes borrosas.
- **Corruptas** (Corrupt): Imágenes con defectos debidos a un cebado incorrecto de la cámara o a luz parásita.
- **Datos perdidos** (Missing data): Imágenes con pérdida parcial o total de datos.
- **Ruido** (Noisy): Imágenes sobresaturadas de ruido por radiación u otras fuentes.
- **Prioridad** (Priority): Imágenes nítidas aptas para el análisis científico sobre el terreno.

Ahora, echemos un vistazo a estos conjuntos de datos.

(En el código, utilizaremos el términos ingléses.
También mantenemos los comentarios del código en inglés después de la primera introducción. Esto le ayudará a preparar su presentación, que debe ser en inglés. Si es necesario, comuníquese con sus compañeros de equipo y utilice un traductor en línea como www.deepl.com.)

In [None]:
# Define the class names
class_names = ["Blurry", "Corrupt", "Missing_Data", "Noisy", "Priority"]

# Get the unique labels in the training set
unique_labels = np.unique(train_labels)


# Display the first 5 images for each class
for label in unique_labels:
    # Find the indices of images belonging to the current class
    class_indices = np.where(train_labels == label)[0]
    
    # Select the first 5 images of this class
    num_images_to_display = min(5, len(class_indices))
    selected_indices = class_indices[:num_images_to_display]
    selected_images = train_images[selected_indices] / 255.0  # Normalize images for better visualization

    # Plot the selected images
    fig, axes = plt.subplots(1, num_images_to_display, figsize=(20, 4))
    fig.suptitle(f'Class: {class_names[label]}', fontsize=16)
    fig.tight_layout(rect=[0, 0.03, 1, 0.95])
    
    for i, ax in enumerate(axes):
        ax.imshow(selected_images[i])
        ax.axis('off')
    
    plt.show()
    print()

The images in the dataset appear to have distinct visual characteristics that make them easy to classify by eye. For example, “Blurry,” “Corrupt” and “Missing Data” images each have unique visual patterns and anomalies that differentiate them from one another. Given these clear differences, we can reasonably expect that machine learning models would also be able to classify these images with high accuracy, as the features that distinguish each class are visually pronounced and easily identifiable.


 <hr style="border:2px solid gray">
 
Las imágenes del conjunto de datos parecen tener características visuales distintas que facilitan su clasificación a simple vista. Por ejemplo, las imágenes «Blurry», «Corrupt» y «Missing Data» presentan patrones visuales únicos y anomalías que las diferencian unas de otras. Dadas estas claras diferencias, podemos esperar razonablemente que los modelos de aprendizaje automático también sean capaces de clasificar estas imágenes con gran precisión, ya que las características que distinguen cada clase son visualmente pronunciadas y fácilmente identificables.

If we were to rank these images in terms of importance based on their significance in capturing and transmitting them back to Earth, the order would be:

1. `Priority`: Images with the highest importance and usability.
2. `Noisy` & `Blurry`: Impure images that are potentially recoverable with preprocessing.
3. `Corrupt` and `Missing Data`: Images with severe issues or missing information, making recovery or reuse least likely.

This ranking will help assess model performance by testing its ability to handle different levels of data quality and recover meaningful information from problematic images.

 <hr style="border:2px solid gray">

    
Si tuviéramos que categorizar estas imágenes en función de su importancia para captarlas y transmitirlas de vuelta a la Tierra, el orden sería:

1. `Priority`: Imágenes con mayor importancia y utilidad.
2. `Noisy` & `Blurry`: Imágenes impuras que son potencialmente recuperables con preprocesamiento.
3. `Corrupt` and `Missing Data`: Imágenes con problemas graves o a las que les falta información, por lo que su recuperación o reutilización es menos probable.
    
Esta categorización ayudará a evaluar el rendimiento del modelo poniendo a prueba su capacidad para manejar distintos niveles de calidad de los datos y recuperar información significativa de imágenes problemáticas.


---

### Class Balance Check / Comprobación del saldo de la clase

In [None]:
# Check the balance of the classes in each dataset
train_class_counts = np.bincount(train_labels)
val_class_counts = np.bincount(val_labels)
test_class_counts = np.bincount(test_labels)

# Display the class distribution with class names
print("\nClass distribution:")
print(f"Training set: {dict(zip(class_names, train_class_counts))}")
print(f"Validation set: {dict(zip(class_names, val_class_counts))}")
print(f"Testing set: {dict(zip(class_names, test_class_counts))}")

In [None]:
The `Priority` class has the most data, followed by `Noisy` and `Blurry`, while `Corrupt` has the least, indicating class imbalance.

 <hr style="border:2px solid gray">

    La clase `Priority` es la que tiene más datos, seguida de `Noisy` y `Blurry`, mientras que `Corrupt` es la que tiene menos, lo que indica un desequilibrio de clases.
    

---

### Finally, removing data from memory / Por último, eliminar datos de la memoria


**⚠️ Important Notice**: Since this code is being executed in a shared environment (ilifu), freeing up memory is crucial to ensure efficient resource usage. By removing unused data, it helps prevent memory bottlenecks that could affect not only your work but also the performance of other users relying on the shared hardware. This is especially important when working with large datasets (like in our case), as excessive memory usage can slow down the overall system and reduce availability for others using the same resources.

**Make sure to follow this same practice when you develop your own pipeline during the hackathon to optimize performance and resource allocation.**



 <hr style="border:2px solid gray">
 



**⚠️ Aviso importante**: Dado que este código está siendo ejecutado en un entorno compartido (ilifu), liberar memoria es crucial para asegurar un uso eficiente de los recursos. Al eliminar los datos no utilizados, ayuda a prevenir cuellos de botella de memoria que podrían afectar no sólo a su trabajo, sino también el rendimiento de otros usuarios que dependen del hardware compartido. Esto es especialmente importante cuando se trabaja con grandes conjuntos de datos (como en nuestro caso), ya que el uso excesivo de memoria puede ralentizar el sistema en general y reducir la disponibilidad para otros que utilizan los mismos recursos.

**Asegúrate de seguir esta misma práctica cuando desarrolles tu propio pipeline durante el hackathon para optimizar el rendimiento y la asignación de recursos.**


In [None]:
import gc

# Remove the data from memory
del train_images, train_labels, val_images, val_labels, test_images, test_labels

# Force garbage collection to free up memory
gc.collect()

# Clear the input/output cache
print("Data removed from memory.")

---

**⚠️ When you are done, make sure to restart the notebooks**


 <hr style="border:2px solid gray">
 
**⚠️ Cuando hayas terminado, asegúrate de reiniciar los Notebooks**