# 📸 EDA on Images & Classes 

<img src='../assets/reflection-connection.png'>

## 📚 Libraries

In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
import os
import random
import matplotlib.pyplot as plt
from PIL import Image, ImageEnhance
import plotly.graph_objs as go
import plotly.express as px
import numpy as np
import cv2
from glob import glob
from tqdm.notebook import tqdm

## 🔬 Analysis

In [None]:
# Chemin vers le répertoire contenant les dossiers de classes
base_path = "../data/raw/train/"

# Liste des noms de classe (nom des dossiers)
class_names = os.listdir(base_path)

# Créez une grille de sous-graphiques
num_classes = len(class_names)
num_images_per_class = 10
fig, axs = plt.subplots(num_images_per_class, num_classes, figsize=(20, 30))

# Parcourez chaque classe
for i, class_name in enumerate(class_names):
    # Chemin vers le dossier de la classe
    class_path = os.path.join(base_path, class_name)

    # Liste des fichiers image dans le dossier de la classe
    image_files = os.listdir(class_path)

    # Sélectionnez aléatoirement 10 images de la classe
    selected_images = random.sample(image_files, num_images_per_class)

    # Affichez les images dans la colonne correspondante
    for j, image_file in enumerate(selected_images):
        # Chemin complet vers l'image
        image_path = os.path.join(class_path, image_file)

        # Lisez l'image et affichez-la dans le sous-graphique correspondant
        img = Image.open(image_path)
        axs[j, i].imshow(img)
        axs[j, i].axis('off')

    # Ajoutez le nom de la classe comme titre pour la colonne
    axs[0, i].set_title(class_name, fontsize=16, fontweight='bold', loc='center', pad=20)


# # Ajustez l'espacement entre les sous-graphiques et le titre général
# plt.subplots_adjust(top=0.9, bottom=0.1)

# # Ajoutez un titre général au graphique
# plt.suptitle("Mosaïque d'images par classe", fontsize=16, fontweight='bold')

# Ajustez l'espacement entre les sous-graphiques
plt.tight_layout()

# Affichez le graphique de mosaïque
plt.show()

In [None]:
# Chemin vers le répertoire contenant les dossiers de classes
base_path = "../data/raw/train/"

# Liste des noms de classe (nom des dossiers)
class_names = os.listdir(base_path)

# Créez une grille de sous-graphiques
num_classes = len(class_names)
num_images_per_class = 10
fig, axs = plt.subplots(num_images_per_class, num_classes, figsize=(20, 30))

# Parcourez chaque classe
for i, class_name in enumerate(class_names):
    # Chemin vers le dossier de la classe
    class_path = os.path.join(base_path, class_name)

    # Liste des fichiers image dans le dossier de la classe
    image_files = os.listdir(class_path)

    # Sélectionnez aléatoirement 10 images de la classe
    selected_images = random.sample(image_files, num_images_per_class)

    # Affichez les images dans la colonne correspondante
    for j, image_file in enumerate(selected_images):
        # Chemin complet vers l'image
        image_path = os.path.join(class_path, image_file)

        # Lisez l'image et affichez-la dans le sous-graphique correspondant
        img = Image.open(image_path)
        img = ImageEnhance.Contrast(img).enhance(5)
        axs[j, i].imshow(img)
        axs[j, i].axis('off')

    # Ajoutez le nom de la classe comme titre pour la colonne
    axs[0, i].set_title(class_name, fontsize=16, fontweight='bold', loc='center', pad=20)

# Ajustez l'espacement entre les sous-graphiques
plt.tight_layout()

# Affichez le graphique de mosaïque
plt.show()


In [None]:
# Chemin vers le dossier contenant les classes
folder_path = "../data/raw/train/"

# Liste pour stocker les histogrammes par classe
histograms = []

# Parcourir les dossiers de classes
class_names = os.listdir(folder_path)
for class_name in class_names:
    class_folder = os.path.join(folder_path, class_name)
    if os.path.isdir(class_folder):
        # Créer un histogramme pour chaque classe
        histogram = np.zeros(256, dtype=np.int64)
        # Parcourir les images dans le dossier de classe
        for image_name in os.listdir(class_folder):
            image_path = os.path.join(class_folder, image_name)
            # Charger l'image en niveaux de gris
            image = Image.open(image_path).convert("L")
            # Convertir l'image en tableau numpy
            image_array = np.array(image)
            # Calculer l'histogramme des valeurs de pixels de l'image et l'ajouter à l'histogramme de la classe
            hist, _ = np.histogram(image_array, bins=256, range=(0, 255))
            histogram += hist
        histogram = histogram / histogram.sum()
        # Ajouter l'histogramme de la classe à la liste
        histograms.append(histogram)

# Créer une figure Plotly
fig = go.Figure()

# Couleurs pour les différentes classes
# colors = ['blue', 'green', 'red', 'orange', 'purple', 'cyan', 'magenta', 'yellow']

# Ajouter un histogramme par classe à la figure
for i, histogram in enumerate(histograms):
    # Créer une courbe pour représenter la distribution des valeurs de pixels
    fig.add_trace(go.Scatter(
        x=list(range(256)),
        y=histogram,
        fill='tozeroy',
        mode='lines',
        name=class_names[i],
        # fillcolor=colors[i],
        # line=dict(color=colors[i])
    ))

# Mettre en forme le layout du graphique
fig.update_layout(
    title="Distribution des valeurs de pixels par classe",
    xaxis_title="Valeur de pixel",
    yaxis_title="Fréquence",
    showlegend=True
)

# Afficher le graphique
fig.show()


In [None]:
# Chemin vers le dossier contenant les classes
folder_path = "../data/raw/**/*.png"

shapes = []
for image_path in tqdm(glob(folder_path, recursive=True)):
    image = Image.open(image_path).convert("L")
    # Convertir l'image en tableau numpy
    shapes.append(np.array(image).shape)
    # Calculer l'histogramme des valeurs de pixels de l'image et l'ajouter à l'histogramme de la classe
values, counts = np.unique(shapes, return_counts=True, axis=0)
values = [str(shape) for shape in values]
px.bar(x=values, y=counts)

In [None]:
volume_data = np.load("../data/raw/pretrain/0kamixt53o.npy")
volume_data.shape

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Chargement des données volumiques .npy
base_path = "../data/raw/pretrain"
num_volumes = 10
volume_files = random.sample(os.listdir(base_path), num_volumes)

# Création de la mosaïque de subplots
num_rows = num_volumes
num_columns = 2
slice_idx = 150

fig, axs = plt.subplots(num_rows, num_columns, figsize=(20, 30))

# Parcourir chaque volume
for i, volume_file in enumerate(volume_files):
    # Charger le volume à partir du fichier .npy
    volume_path = os.path.join(base_path, volume_file)
    volume_data = np.load(volume_path)

    # Afficher la tranche selon x
    img = cv2.normalize(volume_data[slice_idx, :118, :143].T, None, 0.0, 1.0, cv2.NORM_MINMAX, cv2.CV_32FC1)
    axs[i, 0].imshow(img, cmap='gray')
    axs[i, 0].set_title(f"Volume {os.path.splitext(volume_file)[0]} slice {slice_idx} along x axis, min: {round(np.min(volume_data))} - max: {round(np.max(volume_data))}", fontsize=16, fontweight='bold', loc='left', pad=20)
    axs[i, 0].axis('off')

    # Afficher la tranche selon y
    img = cv2.normalize(volume_data[:118, slice_idx, :143].T, None, 0.0, 1.0, cv2.NORM_MINMAX, cv2.CV_32FC1)
    axs[i, 1].imshow(img, cmap='gray')
    axs[i, 1].set_title(f"Volume {os.path.splitext(volume_file)[0]} slice {slice_idx} along y axis", fontsize=16, fontweight='bold', loc='left', pad=20)
    axs[i, 1].axis('off')

# Ajustez l'espacement entre les sous-graphiques
plt.tight_layout()

# Afficher la mosaïque
plt.show()

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Chargement des données volumiques .npy
base_path = "../data/raw/pretrain"
num_volumes = 10
volume_files = random.sample(os.listdir(base_path), num_volumes)

# Création de la mosaïque de subplots
num_rows = num_volumes
num_columns = 2
slice_idx = 150

fig, axs = plt.subplots(num_rows, num_columns, figsize=(20, 30))

# Parcourir chaque volume
for i, volume_file in enumerate(volume_files):
    # Charger le volume à partir du fichier .npy
    volume_path = os.path.join(base_path, volume_file)
    volume_data = np.load(volume_path)

    # Afficher la tranche selon x
    img = volume_data[slice_idx, :, :]
    minval = np.percentile(img, 2)
    maxval = np.percentile(img, 98)
    img = np.clip(img, minval, maxval)
    axs[i, 0].imshow(img, cmap='gray')
    axs[i, 0].set_title(f"Volume {os.path.splitext(volume_file)[0]} slice {slice_idx} along x axis, min: {round(np.min(volume_data))} - max: {round(np.max(volume_data))}", fontsize=16, fontweight='bold', loc='left', pad=20)
    axs[i, 0].axis('off')

    # Afficher la tranche selon y
    img = volume_data[:, slice_idx, :]
    minval = np.percentile(img, 2)
    maxval = np.percentile(img, 98)
    img = np.clip(img, minval, maxval)
    axs[i, 1].imshow(img, cmap='gray')
    axs[i, 1].set_title(f"Volume {os.path.splitext(volume_file)[0]} slice {slice_idx} along y axis", fontsize=16, fontweight='bold', loc='left', pad=20)
    axs[i, 1].axis('off')

# Ajustez l'espacement entre les sous-graphiques
plt.tight_layout()

# Afficher la mosaïque
plt.show()