<h2> Exploration des Jeux de Données d'Herbier </h2>

In [115]:
import os
import zipfile
from pathlib import Path
import re
import cv2
import numpy as np
import pandas as pd

---

#### Importation des Jeux de Données (Train & Test)

In [116]:
relativeProjectPath = Path.cwd().parent
dataPath = relativeProjectPath / 'Data'

In [117]:
testFilename, trainFilename = 'initialTestDataset.csv', 'initialTrainDataset.csv'

if testFilename in os.listdir(dataPath):
    dfImageHerbariumTest = pd.read_csv(filepath_or_buffer=(dataPath / 'initialTestDataset.csv'))
else:
    print('Le dataset "TEST" n\'existe pas! \nVeuillez vérifier les chemins ou réexécuter le fichier "InitializationDataHerbarium.ipynb"')
    
if trainFilename in os.listdir(dataPath):
    dfImageHerbariumTrain = pd.read_csv(filepath_or_buffer=(dataPath / 'initialTrainDataset.csv'))
else:
    print('Le dataset "TRAIN" n\'existe pas! \nVeuillez vérifier les chemins ou réexécuter le fichier "InitializationDataHerbarium.ipynb"')

#### Exploration des Jeux de Données

##### Test Dataset

In [118]:
print(f'Nombre d\'Images TEST : {len(dfImageHerbariumTest)}')

Nombre d'Images TEST : 110


In [119]:
nbrImageperTaxon = "\n".join(list(map(lambda val : f'{val.split(" ")[0]} -> {val.split(" ")[-1]}', str(dfImageHerbariumTest["Herbarium"].value_counts()).split('\n')[:-1])))
print(f'Nombre d\'Images Par Taxon : \n{nbrImageperTaxon}')

Nombre d'Images Par Taxon : 
amborella -> 10
castanea -> 10
convolvulaceae -> 10
desmodium -> 10
eugenia -> 10
laurus -> 10
litsea -> 10
magnolia -> 10
monimiaceae -> 10
rubus -> 10
ulmus -> 10


In [120]:
nbrImage_wBord = " || ".join(list(map(lambda val : f'{val.split(" ")[0]} -> {val.split(" ")[-1]}', str(dfImageHerbariumTest["Bord"].value_counts()).split('\n')[:-1])))
nbrImage_wPhyllotaxie = " || ".join(list(map(lambda val : f'{val.split(" ")[0]} -> {val.split(" ")[-1]}', str(dfImageHerbariumTest["Phyllotaxie"].value_counts()).split('\n')[:-1])))
nbrImage_wTypeFeuille = " || ".join(list(map(lambda val : f'{val.split(" ")[0]} -> {val.split(" ")[-1]}', str(dfImageHerbariumTest["TypeFeuille"].value_counts()).split('\n')[:-1])))
nbrImage_wLigneux = " || ".join(list(map(lambda val : f'{val.split(" ")[0]} -> {val.split(" ")[-1]}', str(dfImageHerbariumTest["Ligneux"].value_counts()).split('\n')[:-1])))


print(f'Nombre d\'Images selon les charactéristiques de Bord du Limbe : {nbrImage_wBord}')
print(f'Nombre d\'Images selon les charactéristiques de Disposition des Feuilles (Phyllotaxie) : {nbrImage_wPhyllotaxie}')
print(f'Nombre d\'Images selon les charactéristiques de Type de Feuille : {nbrImage_wTypeFeuille}')
print(f'Nombre d\'Images selon les charactéristiques de Tyge Végétal : {nbrImage_wLigneux}')

Nombre d'Images selon les charactéristiques de Bord du Limbe : lisse -> 80 || denté -> 30
Nombre d'Images selon les charactéristiques de Disposition des Feuilles (Phyllotaxie) : alterné -> 80 || opposé -> 30
Nombre d'Images selon les charactéristiques de Type de Feuille : simple -> 90 || composée -> 20
Nombre d'Images selon les charactéristiques de Tyge Végétal : oui -> 90 || non -> 20


In [121]:
prctImage_wUniQShapeSize = len(pd.unique(dfImageHerbariumTest['ImageShape']))/len(dfImageHerbariumTest) * 100
print(f'Pourcentage d\'Image avec une Taille et Shape Unique : {prctImage_wUniQShapeSize}%')

if prctImage_wUniQShapeSize < 100:
    nonUniQ_ShapeSize = dfImageHerbariumTest['ImageShape'].value_counts().reset_index().iloc[0, 0]
    print(f'Shape des Image n\'étant pas unique : {nonUniQ_ShapeSize}')

Pourcentage d'Image avec une Taille et Shape Unique : 100.0%


##### Train Dataset

In [122]:
print(f'Nombre d\'Images TRAIN : {len(dfImageHerbariumTrain)}')

Nombre d'Images TRAIN : 220


In [123]:
nbrImageperTaxon = "\n".join(list(map(lambda val : f'{val.split(" ")[0]} -> {val.split(" ")[-1]}', str(dfImageHerbariumTrain["Herbarium"].value_counts()).split('\n')[:-1])))
print(f'Nombre d\'Images Par Taxon : \n{nbrImageperTaxon}')

Nombre d'Images Par Taxon : 
amborella -> 20
castanea -> 20
convolvulaceae -> 20
desmodium -> 20
eugenia -> 20
laurus -> 20
litsea -> 20
magnolia -> 20
monimiaceae -> 20
rubus -> 20
ulmus -> 20


In [124]:
nbrImage_wBord = " || ".join(list(map(lambda val : f'{val.split(" ")[0]} -> {val.split(" ")[-1]}', str(dfImageHerbariumTrain["Bord"].value_counts()).split('\n')[:-1])))
nbrImage_wPhyllotaxie = " || ".join(list(map(lambda val : f'{val.split(" ")[0]} -> {val.split(" ")[-1]}', str(dfImageHerbariumTrain["Phyllotaxie"].value_counts()).split('\n')[:-1])))
nbrImage_wTypeFeuille = " || ".join(list(map(lambda val : f'{val.split(" ")[0]} -> {val.split(" ")[-1]}', str(dfImageHerbariumTrain["TypeFeuille"].value_counts()).split('\n')[:-1])))
nbrImage_wLigneux = " || ".join(list(map(lambda val : f'{val.split(" ")[0]} -> {val.split(" ")[-1]}', str(dfImageHerbariumTrain["Ligneux"].value_counts()).split('\n')[:-1])))


print(f'Nombre d\'Images selon les charactéristiques de Bord du Limbe : {nbrImage_wBord}')
print(f'Nombre d\'Images selon les charactéristiques de Disposition des Feuilles (Phyllotaxie) : {nbrImage_wPhyllotaxie}')
print(f'Nombre d\'Images selon les charactéristiques de Type de Feuille : {nbrImage_wTypeFeuille}')
print(f'Nombre d\'Images selon les charactéristiques de Tyge Végétal : {nbrImage_wLigneux}')

Nombre d'Images selon les charactéristiques de Bord du Limbe : lisse -> 160 || denté -> 60
Nombre d'Images selon les charactéristiques de Disposition des Feuilles (Phyllotaxie) : alterné -> 160 || opposé -> 60
Nombre d'Images selon les charactéristiques de Type de Feuille : simple -> 180 || composée -> 40
Nombre d'Images selon les charactéristiques de Tyge Végétal : oui -> 180 || non -> 40


In [125]:
prctImage_wUniQShapeSize = (len(pd.unique(dfImageHerbariumTrain['ImageShape']))/len(dfImageHerbariumTrain)) * 100
print(f'Pourcentage d\'Image avec une Taille et Shape Unique : {prctImage_wUniQShapeSize}%')

if prctImage_wUniQShapeSize < 100:
    nonUniQ_ShapeSize = dfImageHerbariumTrain['ImageShape'].value_counts().reset_index().iloc[0, 0]
    print(f'Shape des Image n\'étant pas unique : {nonUniQ_ShapeSize}')

Pourcentage d'Image avec une Taille et Shape Unique : 99.54545454545455%
Shape des Image n'étant pas unique : (5145, 3209, 3)
