### Data Processing

Ce fichier permet de créer les datasets labélisés à partir des dossiers d'images et du csv des labels d'espèces

##### Imports

In [None]:
import pandas as pd
import os
import pathlib
import cv2

In [None]:
!git clone -b dev https://github.com/Finweto/Projet-deep-learning-2022.git
!ls

#### Préparation de données

In [1]:
# lecture du csv contenant tous les labels et leur caractéristiques créé manuellement au début du projet
data_labels=pd.read_csv('data_especes.csv')

print(data_labels)

             label   bord phyllotaxie type_feuille ligneux
0   convolvulaceae  lisse     alterne       simple     non
1      monimiaceae  lisse      oppose       simple     oui
2        amborella  lisse     alterne       simple     oui
3         castanea  dente     alterne       simple     oui
4        desmodium  lisse     alterne     composee     non
5          eugenia  lisse      oppose       simple     oui
6           laurus  lisse      oppose       simple     oui
7           litsea  lisse     alterne       simple     oui
8         magnolia  lisse     alterne       simple     oui
9            rubus  dente     alterne     composee     oui
10           ulmus  dente     alterne       simple     oui


In [3]:
label_names=data_labels["label"]
label_names=label_names.to_list()

print(label_names)

['convolvulaceae', 'monimiaceae', 'amborella', 'castanea', 'desmodium', 'eugenia', 'laurus', 'litsea', 'magnolia', 'rubus', 'ulmus']


#### Fonctions 

In [4]:
# fonction permettant d'extraire toutes les images de notre Dataset et d'enregistrer le label (type de plante) 
# et le chemin (chemin dans le répertoire) dans un Dataframe
def get_images(dir_path: pathlib.Path):

  # création du Dataframe
  df=pd.DataFrame({})

  labels = []
  file_paths  = []

  for subdir_path in dir_path.iterdir():

    # on recupère le label avec le nom du sous repertoire dans le Dataset
    label = os.path.basename(subdir_path)

    for image_path in subdir_path.iterdir():
      labels.append(label)
      file_paths.append(image_path)

  # remplissage du Dataframe
  df["label"]=labels
  df["img_path"]=file_paths

  return df

# fonction permettant d'ajouter au précedent Dataframe les caractéristiques de chaque label (feuille dentée, lisse...)
def add_labels(df):
  bord=[]
  phyll=[]
  type_f=[]
  ligneux=[]

  for row in range(len(df['label'])):
      label=df['label'][row]
      label_index=label_names.index(label)
      bord.append(data_labels['bord'][label_index])
      phyll.append(data_labels['phyllotaxie'][label_index])
      type_f.append(data_labels['type_feuille'][label_index])
      ligneux.append(data_labels['ligneux'][label_index])

  df['bord']=bord
  df['phyllotaxie']=phyll
  df['type_feuille']=type_f
  df['ligneux']=ligneux

  print(df.head(2))
  
  return(df)

#### Création des Dataset finaux  [`data_train_labeled.csv`]  et  [`data_test_labeled.csv`]

In [5]:
df_train=get_images(pathlib.Path("dataset_processed_v2") / "Train")
df_train=add_labels(df_train)

df_test=get_images(pathlib.Path("dataset_processed_v2") / "Test")
df_test=add_labels(df_test)

# export des Dataframe dans notre environnement de travail
df_train.to_csv('data_train_labeled.csv')
df_test.to_csv('data_test_labeled.csv')

    label                                         img_path   bord phyllotaxie  \
0  litsea  dataset_processed_v2/Train/litsea/litsea100.jpg  lisse     alterne   
1  litsea  dataset_processed_v2/Train/litsea/litsea099.jpg  lisse     alterne   

  type_feuille ligneux  
0       simple     oui  
1       simple     oui  
         label                                           img_path   bord  \
0  monimiaceae  dataset_processed_v2/Test/monimiaceae/monimiac...  lisse   
1  monimiaceae  dataset_processed_v2/Test/monimiaceae/monimiac...  lisse   

  phyllotaxie type_feuille ligneux  
0      oppose       simple     oui  
1      oppose       simple     oui  
