# Importation des données

In [57]:
import glob # Permet de rechercher tous les chemins ayant le motif spécifié
import numpy as np
import pandas as pd

import cv2 # Open CV

In [58]:
# On recherche tous les .jpg dans le dossiers
images = glob.glob(pathname='PBC_dataset_normal_DIB/'+'*/*.jpg') 

# Extraction d'informations des données

In [59]:
# On affiche le nombre d'images trouvées dans le dossier
print(f"images: {len(images)}")

images: 17092


In [60]:
# On crée un dataframe en fonction de la liste "images"
df_infos = pd.DataFrame({'path_image':images})
df_infos

Unnamed: 0,path_image
0,PBC_dataset_normal_DIB/basophil/BA_689200.jpg
1,PBC_dataset_normal_DIB/basophil/BA_883452.jpg
2,PBC_dataset_normal_DIB/basophil/BA_382161.jpg
3,PBC_dataset_normal_DIB/basophil/BA_175579.jpg
4,PBC_dataset_normal_DIB/basophil/BA_775722.jpg
...,...
17087,PBC_dataset_normal_DIB/platelet/PLATELET_49591...
17088,PBC_dataset_normal_DIB/platelet/PLATELET_89723...
17089,PBC_dataset_normal_DIB/platelet/PLATELET_75043...
17090,PBC_dataset_normal_DIB/platelet/PLATELET_81043...


# Création de la variable "category"

In [61]:
'''On crée une variable 'category' en fonction de la variable "path_image",
et on recupère le nom du la catégorie en utilisant split'''
df_infos['category'] = df_infos['path_image'].apply(lambda x: x.split('/')[1])

# Création de la variable "name"

In [67]:
'''On crée une variable 'name' en fonction de la variable "path_images_train_test",
et on recupère le nom d'image en utilisant split'''
df_infos['name'] = df_infos['path_image'].apply(lambda x: x.split('/')[-1].split('.')[0])

# Création de la variable "extension"

In [69]:
'''On crée une variable 'extension' en fonction de la variable "path_images_train_test",
et on recupère l'extention en utilisant split'''
df_infos['extension'] = df_infos['path_image'].apply(lambda x: x.split('.')[-1])

# Récupération des information de dimension des données (width, height, size)

In [72]:
'''On crée 3 listes pour récuperer les différentes informations de 
la taille des images (hauteur, largeur et nombre de dimension)'''
img_width, img_height, img_dim,  img_size = [],[],[],[]

'''Pour chaque image dans 'images',
on lit l'image puis on stocke les infos dans chaque liste respectives'''
for image in images:
    img = cv2.imread(image, cv2.IMREAD_COLOR)
    img_width.append(img.shape[0])
    img_height.append(img.shape[1])
    img_dim.append(img.shape[2])
    img_size.append(str(img.shape[0]) + ' x ' + str(img.shape[1]))
    

# On regroupe respectivement les dataframes "data_train_test" et "data_pred" avec les informations de dimension

In [73]:
'''On regroupe le dataframe 'df_infos' avec un nouveau dataframe contenant les informations 
des listes créees précedement'''
df_infos = pd.concat([df_infos,
                            pd.DataFrame({'width':img_width, 
                                          'height':img_height, 
                                          'dim':img_dim,
                                          'size':img_size})], axis=1)

In [70]:
df_infos

Unnamed: 0,path_image,category,name,extension
0,PBC_dataset_normal_DIB/basophil/BA_689200.jpg,basophil,BA_689200,jpg
1,PBC_dataset_normal_DIB/basophil/BA_883452.jpg,basophil,BA_883452,jpg
2,PBC_dataset_normal_DIB/basophil/BA_382161.jpg,basophil,BA_382161,jpg
3,PBC_dataset_normal_DIB/basophil/BA_175579.jpg,basophil,BA_175579,jpg
4,PBC_dataset_normal_DIB/basophil/BA_775722.jpg,basophil,BA_775722,jpg
...,...,...,...,...
17087,PBC_dataset_normal_DIB/platelet/PLATELET_49591...,platelet,PLATELET_495918,jpg
17088,PBC_dataset_normal_DIB/platelet/PLATELET_89723...,platelet,PLATELET_897238,jpg
17089,PBC_dataset_normal_DIB/platelet/PLATELET_75043...,platelet,PLATELET_750430,jpg
17090,PBC_dataset_normal_DIB/platelet/PLATELET_81043...,platelet,PLATELET_810431,jpg


# SAUVEGARDE DES DONNEES

In [76]:
df_infos.to_csv("df_infos.csv", index=False)