# Importation des données dans les dataframe de référence

## 0 Importation de bibliothèques nécessaires

In [1]:
import pandas as pd
import numpy as np
from PIL import Image
import os
import cv2
from tqdm import tqdm
import shutil

## 1 Importation du dataframe source contenant les 3 bases (NewPlantDisease, PlantDisease et PlantVillage)

### 1.1 Importation des données

In [2]:
#Création de la structure du DataFrame
#'Dataset' contient le nom du dataset source (NewPlantDisease, PlantDisease ou Plantvillage)
#'Set' contient test, train ou valid pour (new) plant disease, color, grayscale et segmented pour Plantvillage
#'DirPath' est le chemin d'accès sur l'ordinateur local du répertoire
#'FileName' est le nom de fichier dans ce répertoire
df_KaggleData = pd.DataFrame(columns=['Plante','Maladie','Dataset','Set','DirPath','FileName'])

In [3]:
#Définition d'une fonction de chargement des données dans un data frame au format précédent
def load_data_kaggle(pathRep, df, dataset, cat):
    new_rows = [] #Lignes qui seront à ajouter

    #Parcours des répertoires Plante__Maladie
    for rep in os.listdir(pathRep):
        #Sépare le nom de la plante de la maladie
        noms = rep.split(sep='___')

        #Adresse du sous-répertoire
        sousRep = os.path.join(pathRep,rep)

        #Parcours des images du sous-répertoire
        for image in os.listdir(sousRep):
            #Création de la liste des lignes additionnelles
            new_row = {'Plante' : noms[0] , 'Maladie' : noms[1], 'Dataset' : dataset, 'Set' : cat, 'DirPath' : sousRep, 'FileName' : image}
            new_rows.append(new_row)
    #Ajout des images au df passé en argument
    new_rows_df = pd.DataFrame(new_rows)
    df = pd.concat([df, new_rows_df], ignore_index=True)
    return(df)

*Note : les blocs suivants sont adaptés aux répertoires de Julie, Florent, Hadrien et Colab. Autrement, les "pathRep" doivent être ajustés pour chaque set de données selon l'arborescence propre à chaque utilisateur*

In [None]:
#ADRESSES DOSSIERS JULIE
#New Plant Disease - valid
pathRep_NPD_valid = "D:\\Documents\\Julie\\FormationDataScientest\\DonneesProjet\\NewPlantDiseases\\valid"
#New Plant Disease - train
pathRep_NPD_train = "D:\\Documents\\Julie\\FormationDataScientest\\DonneesProjet\\NewPlantDiseases\\train"
#Plant Disease - test
pathRep_PD_test = "D:\\Documents\\Julie\\FormationDataScientest\\DonneesProjet\\Plant_Disease\\dataset\\dataset\\test"
#Plant Disease - train
pathRep_PD_train = "D:\\Documents\\Julie\\FormationDataScientest\\DonneesProjet\\Plant_Disease\\dataset\\dataset\\train"
#Plant Village - color
pathRep_PV_color = "D:\\Documents\\Julie\\FormationDataScientest\\DonneesProjet\\plantVillage\\plantvillage dataset\\color"
#Plant Village - grayscale
pathRep_PV_gray = "D:\\Documents\\Julie\\FormationDataScientest\\DonneesProjet\\plantVillage\\plantvillage dataset\\grayscale"
#Plant Village - segmented
pathRep_pv_segm = "D:\\Documents\\Julie\\FormationDataScientest\\DonneesProjet\\plantVillage\\plantvillage dataset\\segmented"
#Répertoire sauvegarde des fichiers csv
pathRep_csv = "D:\\Documents\\Julie\\FormationDataScientest\\DonneesProjet"
#Séparateur del 'arborescence pour la construction de FilePath
sepArbo = "\\"

In [None]:
#ADRESSES DOSSIERS FLORENT
#New Plant Disease - valid
pathRep_NPD_valid = "C:\\Users\\flore\\Jupyter\\Recog_Plant_Disease\\Datasets\\NPD\\valid"
#New Plant Disease - train
pathRep_NPD_train = "C:\\Users\\flore\\Jupyter\\Recog_Plant_Disease\\Datasets\\NPD\\train"
#Plant Disease - test
pathRep_PD_test = "C:\\Users\\flore\\Jupyter\\Recog_Plant_Disease\\Datasets\\PD\\test"
#Plant Disease - train
pathRep_PD_train = "C:\\Users\\flore\\Jupyter\\Recog_Plant_Disease\\Datasets\\PD\\train"
#Plant Village - color
pathRep_PV_color = "C:\\Users\\flore\\Jupyter\\Recog_Plant_Disease\\Datasets\\PVD\\color"
#Plant Village - grayscale
pathRep_PV_gray = "C:\\Users\\flore\\Jupyter\\Recog_Plant_Disease\\Datasets\\PVD\\grayscale"
#Plant Village - segmented
pathRep_pv_segm = "C:\\Users\\flore\\Jupyter\\Recog_Plant_Disease\\Datasets\\PVD\\segmented"
#Répertoire sauvegarde des fichiers csv
pathRep_csv = "C:\\Users\\flore\\Jupyter\\Recog_Plant_Disease\\Datasets"
#Séparateur del 'arborescence pour la construction de FilePath
sepArbo = "\\"

In [4]:
#ADRESSES DOSSIERS HADRIEN
#New Plant Disease - valid
pathRep_NPD_valid = "C:\\Users\\hadri\\Plant project\\data\\1 New Plant Disease\\Data\\valid"
#New Plant Disease - train
pathRep_NPD_train = "C:\\Users\\hadri\\Plant project\\data\\1 New Plant Disease\\Data\\train"
#Plant Disease - test
pathRep_PD_test = "C:\\Users\\hadri\\Plant project\\data\\1 Plant Disease\\Data\\test"
#Plant Disease - train
pathRep_PD_train = "C:\\Users\\hadri\\Plant project\\data\\1 Plant Disease\\Data\\train"
#Plant Village - color
pathRep_PV_color = "C:\\Users\\hadri\\Plant project\\data\\1 PlantVillage\\Data\\color"
#Plant Village - grayscale
pathRep_PV_gray = "C:\\Users\\hadri\\Plant project\\data\\1 PlantVillage\\Data\\grayscale"
#Plant Village - segmented
pathRep_pv_segm = "C:\\Users\\hadri\\Plant project\\data\\1 PlantVillage\\Data\\segmented"
#Répertoire sauvegarde des fichiers csv
pathRep_csv = "C:\\Users\\hadri\\Plant project\\data"
#Séparateur del 'arborescence pour la construction de FilePath
sepArbo = "\\"

In [None]:
#ADRESSES DOSSIERS COLAB
pathRepAutreData = "/content/data/AutreData"
#New Plant Disease - valid
pathRep_NPD_valid = "/content/data/NPD/valid"
#New Plant Disease - train
pathRep_NPD_train = "/content/data/NPD/train"
#Plant Disease - test
pathRep_PD_test = pathRepAutreData
#Plant Disease - train
pathRep_PD_train = pathRepAutreData
#Plant Village - color
pathRep_PV_color = pathRepAutreData
#Plant Village - grayscale
pathRep_PV_gray = pathRepAutreData
#Plant Village - segmented
pathRep_pv_segm = pathRepAutreData
#Répertoire sauvegarde des fichiers csv
pathRep_csv = "/content/drive/MyDrive/ProjetPlantes/Donnees"
#Création des répertoires
os.makedirs("/content/data/NPD", exist_ok=True)
os.makedirs("/content/data/AutreData", exist_ok=True)
#Séparateur del 'arborescence pour la construction de FilePath
sepArbo = "/"

In [None]:
#Pour Google Colab, installation du drive
#Installation du drive
from google.colab import drive
drive.mount('/content/drive')
#Attention, attente que le Drive soit réellement monté avant de poursuivre

In [None]:
#Pour Google Colab, on va importer les données depuis Kaggle en local, mais uniquement pour la base NewPlantDisease
#!!! Attention !!! il faut auparavant créer un nouveau token de l'API kaggle depuis le site Kaggle et copier le fichier
# généré 'kaggle.json' dans le répertoire /MonDrive/ProjetPlantes/Donnees/Kaggle/kaggle.json de Google Drive

#Installation package kaggle
! pip install -q kaggle
#Création d'un dossier local kaggle
! mkdir ~/.kaggle/
! cp '/content/drive/MyDrive/ProjetPlantes/Donnees/Kaggle/kaggle.json' ~/.kaggle/
#Donner les droits au fichier kaggle.json
! chmod 600 ~/.kaggle/kaggle.json
#Téléchargement du zip de NewPlantDisease de kaggle en local
! kaggle datasets download -d vipoooool/new-plant-diseases-dataset
#Dézippage du fichier précédemment téléchargé
! unzip /content/new-plant-diseases-dataset.zip -d /content/data/NPD
#Déplacement des fichiers dans les répertoires cibles
shutil.move("/content/data/NPD/New Plant Diseases Dataset(Augmented)/New Plant Diseases Dataset(Augmented)/valid", pathRep_NPD_valid)
shutil.move("/content/data/NPD/New Plant Diseases Dataset(Augmented)/New Plant Diseases Dataset(Augmented)/train",pathRep_NPD_train)


In [5]:
df_KaggleData = load_data_kaggle(pathRep_NPD_valid, df_KaggleData, 'NewPlantDisease', 'valid')
df_KaggleData = load_data_kaggle(pathRep_NPD_train, df_KaggleData, 'NewPlantDisease', 'train')
df_KaggleData = load_data_kaggle(pathRep_PD_test, df_KaggleData, 'PlantDisease', 'test')
df_KaggleData = load_data_kaggle(pathRep_PD_train, df_KaggleData, 'PlantDisease', 'train')
df_KaggleData = load_data_kaggle(pathRep_PV_color, df_KaggleData, 'PlantVillage', 'color')
df_KaggleData = load_data_kaggle(pathRep_PV_gray, df_KaggleData, 'PlantVillage', 'grayscale')
df_KaggleData = load_data_kaggle(pathRep_pv_segm, df_KaggleData, 'PlantVillage', 'segmented')

### 1.2 Création des colonnes supplémentaires

In [6]:
#Ajout d'une colonne catégorie
df_KaggleData['Categorie'] = df_KaggleData['Plante'] + '__' + df_KaggleData['Maladie']

In [7]:
#Ajout d'une colonne Saine indiquant si la plante est malade ou non
df_KaggleData['Saine'] = np.where(df_KaggleData['Maladie'] == 'healthy', 1, 0)

In [8]:
#Ajout d'une colonne FilePath pour accès plus rapide lors du parcours
df_KaggleData['FilePath'] = df_KaggleData['DirPath'] + sepArbo + df_KaggleData['FileName']

In [9]:
#Réordonnencement des colonnes
df_KaggleData = df_KaggleData[['Categorie', 'Plante', 'Maladie', 'Saine', 'Dataset', 'Set', 'DirPath', 'FileName', 'FilePath']]

## 2 Définition des fonctions communes utiles

### 2.1 Extraction des informations du nom du fichier
**Attention ces fonctions n'ont été testées que sur la base restreinte à 'New Plant Diseases'**

In [10]:
#Fonction de décomposition du nom du fichier
def DecomposNomFichier(nom):
    #La partie avant les caractères "___" n'a pas d'intérêt. Récupération de la partie après (attention aux noms sans 1ere partie)
    if(nom.find('___') != -1):
        paramNom = nom.split(sep='___')[1]
    else:
        paramNom = nom

    #la partie après les caractères est du type TTT_mmm 9999[_suffixe].JPG où suffixe n'existe que pour les images ajoutées à la base PlantVillage
    #décomposition de cette partie. On ne gardera que le 2 abréviations  TTT et mmm
    decomp = paramNom.split(sep=' ')
    #cas particulier des photos sans nom de la maladie
    if((decomp[0]).find('_') != -1):
        abrev = (decomp[0]).split(sep='_')[0]
        abrevMaladie = (decomp[0]).split(sep='_')[1]
    else:
        abrev = decomp[0]
        abrevMaladie = ''

    #vérification de la présence d'un suffixe - cas de noms avec plusieurs espaces. Le suffixe est sur le dernier nom
    if (decomp[-1].find('_') != -1):
        # il y a un suffixe ; il est de la forme pour les rotations 9999_newPixel25, 9999_999deg.JPG ou 9999_new99deg.JPG
        # le suffixe peut être également une symétrie gauche-droite ou haut-bas 9999_flipXX
        suffixe = (decomp[-1].split('_')[1]).lower()

        #recherche du type de suffixe présent
        if(suffixe.find('deg') != -1):
            #suffixe de rotation ; recherche de l'angle de rotation (partie numérique du suffixe)
            rotation = ''.join(c for c in suffixe if c.isdigit())
        else:
            rotation = 0

        if((suffixe.find('pixel') != -1) or (suffixe.find('ggr') != -1) or (suffixe.find('grr') != -1)):
            #suffixe de luminosite une photo a au plus une seule de ces modifications
            if (suffixe.find('pixel') != -1):
                # recherche du nombre de pixel
                luminosite = ''.join(c for c in suffixe if c.isdigit())
            elif(suffixe.find('ggr') != -1):
                luminosite = "GGR"
            else:
                luminosite = "GRR"
        else:
            luminosite = 0

        if (suffixe.find('flip') != -1):
            #suffixe de symétrie (flipTB ou flipLR) - le sens correspond aux 2 caractères suivants
            index = suffixe.lower().find('flip')
            symetrie = suffixe[index + 4 : index + 6].upper()
        else:
            symetrie = 0

    else:
        # il n'y a pas de suffixe, il n'y a donc pas de rotation
        rotation = 0
        luminosite = 0
        symetrie = 0
        suffixe = ''

    return suffixe, abrev, abrevMaladie, rotation, luminosite, symetrie

In [11]:
#Fonction de chargement des données extraites du nom de fichier dans un dataframe
def load_filename_data(dataframe):
    #Initialisation des listes pour les nouvelles colonnes
    lstSuffixe = []
    lstAbrev = []
    lstAbrevMaladie = []
    lstRotation = []
    lstLuminosite = []
    lstSymetrie = []
    lstSaine = []

    #Parcours de tous les noms de fichier pour effectuer la décomposition
    for ligne in tqdm(dataframe['FileName']):
        suffixe, abrev, abrevMaladie, rotation, luminosite, symetrie = DecomposNomFichier(ligne)
        lstSuffixe.append(suffixe)
        lstAbrev.append(abrev)
        lstAbrevMaladie.append(abrevMaladie)
        lstRotation.append(rotation)
        lstLuminosite.append(luminosite)
        lstSymetrie.append(symetrie)
        if (abrevMaladie.upper() == "HL"):
            lstSaine.append(1)
        else:
            lstSaine.append(0)

    #Création des nouvelles colonnes
    dataframe["Suffixe"] = lstSuffixe
    dataframe["Abrev"]= lstAbrev
    dataframe["AbrevMaladie"]= lstAbrevMaladie
    dataframe["Rotation"] = lstRotation
    dataframe["Luminosite"] = lstLuminosite
    dataframe["Symetrie"] = lstSymetrie
    dataframe["Saine_file"] = lstSaine

    return dataframe

### 2.1 Extraction des informations des images

In [12]:
#Extraction des informations de qualité d'images
def extract_image_properties(image_path):
    # Charger l'image avec OpenCV
    image = cv2.imread(image_path)

    # Dimensions de l'image
    height, width, channels = image.shape

    # Taille du fichier
    size_bytes = os.path.getsize(image_path)

    # Mode, profondeur de couleur
    img_pil = Image.fromarray(image)
    mode = img_pil.mode
    profondeur_couleur = image.dtype.itemsize * 8

    # Propriétés de couleurs de l'image
    b, g, r = cv2.split(image)
    moyenneR = r.mean()
    moyenneG = g.mean()
    moyenneB = b.mean()

    return height, width, channels, size_bytes, mode, profondeur_couleur, moyenneR, moyenneG, moyenneB

In [13]:
#Fonction de chargement des informations liées aux images dans un Dataframe
def load_image_data(dataframe):

    # Initialisation d'une liste pour stocker les résultats temporaires
    temp_results = []

    # Parcours de tous les noms de fichier pour effectuer les extractions
    for filepath in tqdm(dataframe['FilePath']):
        height, width, channels, size_bytes, mode, profondeur_couleur, moyenneR, moyenneG, moyenneB = extract_image_properties(filepath)
        temp_results.append([height, width, channels, size_bytes, mode, profondeur_couleur, moyenneR, moyenneG, moyenneB])

    # Conversion des résultats en DataFrame et attribution des noms de colonnes
    df_temp = pd.DataFrame(temp_results, columns=['Hauteur', 'Largeur', 'Canaux', 'Taille du fichier', 'Mode', 'Profondeur de couleur', 'Moyenne R', 'Moyenne G', 'Moyenne B'])

    # Concaténation du DataFrame temporaire au DataFrame original
    return pd.concat([dataframe, df_temp], axis=1)

## 3 Création d'un dataframe restreint à la base 'New Plant Disease'

### 3.1 Slicing du dataframe général et suppression de la colonne 'Dataset'

In [14]:
#Création d'un nouveau DataFrame qui ne contiendra que la Database NewPlantDiseases
df_NPD = df_KaggleData[(df_KaggleData["Dataset"] == "NewPlantDisease")]
#Suppression de la colonne 'Dataset' inutile dans ce dataframe
df_NPD = df_NPD.drop('Dataset', axis = 1)

### 3.2 Importation des informations issues du nom de fichier

In [15]:
df_NPD = load_filename_data(df_NPD)

100%|██████████| 87867/87867 [00:00<00:00, 404749.83it/s]


### 3.3 Importation des informations issues des images

In [16]:
df_NPD = load_image_data(df_NPD) #L'exécution prend plusieurs minutes

100%|██████████| 87867/87867 [01:39<00:00, 882.14it/s] 


### 3.4 Nettoyage des données (intrus, mauvaises classifications, etc.)

In [17]:
#Comparaison des données de santée issues du nom de fichier ('Saine') et du nom de répertoire ('Saine')
pd.crosstab(df_NPD['Saine'], df_NPD['Saine_file'])

Saine_file,0,1
Saine,Unnamed: 1_level_1,Unnamed: 2_level_1
0,59999,2
1,3,27863


In [18]:
#Affichage des 5 mauvaises classifications
df_NPD[df_NPD['Saine'] != df_NPD['Saine_file']]

Unnamed: 0,Categorie,Plante,Maladie,Saine,Set,DirPath,FileName,FilePath,Suffixe,Abrev,...,Saine_file,Hauteur,Largeur,Canaux,Taille du fichier,Mode,Profondeur de couleur,Moyenne R,Moyenne G,Moyenne B
14770,Tomato__Late_blight,Tomato,Late_blight,0,valid,C:\Users\hadri\Plant project\data\1 New Plant ...,d674cbf6-0cdc-407a-97ea-c3f53f2c51e4___GH_HL L...,C:\Users\hadri\Plant project\data\1 New Plant ...,,GH,...,1,256,256,3,14318,RGB,8,114.784866,119.643845,117.576004
53282,"Pepper,_bell__healthy","Pepper,_bell",healthy,1,train,C:\Users\hadri\Plant project\data\1 New Plant ...,3306b49b-e3b3-4450-8609-ae44ab2b6593___bell-pe...,C:\Users\hadri\Plant project\data\1 New Plant ...,,bell-pepper-plant-61726.jpg,...,0,256,256,3,17151,RGB,8,74.126404,101.970703,31.53418
74107,Tomato__healthy,Tomato,healthy,1,train,C:\Users\hadri\Plant project\data\1 New Plant ...,4959798b-5c9b-4f8e-b0a0-3778259614b1___CG1.JPG,C:\Users\hadri\Plant project\data\1 New Plant ...,,CG1.JPG,...,0,256,256,3,10861,RGB,8,131.45314,136.712845,125.183929
74436,Tomato__healthy,Tomato,healthy,1,train,C:\Users\hadri\Plant project\data\1 New Plant ...,7de93009-6180-4027-8779-76947cda3e2f___2700323...,C:\Users\hadri\Plant project\data\1 New Plant ...,95aa2eaa01,2700323949,...,0,256,256,3,10096,RGB,8,160.202286,124.502197,112.196518
76605,Tomato__Late_blight,Tomato,Late_blight,0,train,C:\Users\hadri\Plant project\data\1 New Plant ...,cb3bd866-dd84-4f7e-9226-b4a2a2c7f2ae___GH_HL L...,C:\Users\hadri\Plant project\data\1 New Plant ...,,GH,...,1,256,256,3,12847,RGB,8,107.044052,111.689423,106.197418


In [19]:
#Suppression dans df_NPD de la ligne avec la photo du poivron
df_NPD = df_NPD.drop(df_NPD[df_NPD['FileName']=='3306b49b-e3b3-4450-8609-ae44ab2b6593___bell-pepper-plant-61726.jpg'].index)
#Suppression dans df_NPD de la ligne avec la photo de la tomate
df_NPD = df_NPD.drop(df_NPD[df_NPD['FileName']=='7de93009-6180-4027-8779-76947cda3e2f___2700323949_95aa2eaa01_o.jpg'].index)
#Suppression des 2 feuilles dans df_NPD qui sont dans un répertoire non 'Saine' et qui sont indiquées saines
df_NPD = df_NPD.drop(df_NPD[(df_NPD['Maladie'] != 'healthy') & (df_NPD['Saine_file'] == 1)].index)

In [20]:
#Modification des valeurs de saine et AbrevMaladie pour la feuille avec le nom non normé
indexFeuille = df_NPD.loc[(df_NPD['FileName'] == "4959798b-5c9b-4f8e-b0a0-3778259614b1___CG1.JPG")].index[0]
df_NPD.at[indexFeuille,'Saine_file'] = 1
df_NPD.at[indexFeuille,'AbrevMaladie'] = "HL"

In [21]:
pd.crosstab(df_NPD['Saine'], df_NPD['Saine_file'])

Saine_file,0,1
Saine,Unnamed: 1_level_1,Unnamed: 2_level_1
0,59999,0
1,0,27864


In [22]:
#Suppression de la colonne 'Saine-file'
df_NPD = df_NPD.drop('Saine_file', axis = 1)

In [23]:
#Réordonnencement des colonnes
#Liste des colonnes dans l'ordre désiré
new_order = ['Categorie', 'Plante', 'Maladie', 'Saine', 'Suffixe', 'Abrev', 'AbrevMaladie', 'Rotation',
             'Luminosite', 'Symetrie', 'Hauteur', 'Largeur', 'Canaux', 'Mode', 'Profondeur de couleur',
             'Moyenne R', 'Moyenne G', 'Moyenne B', 'Taille du fichier', 'Set', 'DirPath', 'FileName', 'FilePath']

#Réordonner les colonnes
df_NPD = df_NPD[new_order]

## 4 Résumé des dataframes, transfert aux autres Notebook et création des fichiers csv
### 4.1 Résumé des dataframes

In [24]:
df_KaggleData.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 305088 entries, 0 to 305087
Data columns (total 9 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   Categorie  305088 non-null  object
 1   Plante     305088 non-null  object
 2   Maladie    305088 non-null  object
 3   Saine      305088 non-null  int32 
 4   Dataset    305088 non-null  object
 5   Set        305088 non-null  object
 6   DirPath    305088 non-null  object
 7   FileName   305088 non-null  object
 8   FilePath   305088 non-null  object
dtypes: int32(1), object(8)
memory usage: 19.8+ MB


In [25]:
df_NPD.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 87863 entries, 0 to 87866
Data columns (total 23 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Categorie              87863 non-null  object 
 1   Plante                 87863 non-null  object 
 2   Maladie                87863 non-null  object 
 3   Saine                  87863 non-null  int32  
 4   Suffixe                87863 non-null  object 
 5   Abrev                  87863 non-null  object 
 6   AbrevMaladie           87863 non-null  object 
 7   Rotation               87863 non-null  object 
 8   Luminosite             87863 non-null  object 
 9   Symetrie               87863 non-null  object 
 10  Hauteur                87863 non-null  int64  
 11  Largeur                87863 non-null  int64  
 12  Canaux                 87863 non-null  int64  
 13  Mode                   87863 non-null  object 
 14  Profondeur de couleur  87863 non-null  int64  
 15  Mo

In [26]:
df_NPD.head()

Unnamed: 0,Categorie,Plante,Maladie,Saine,Suffixe,Abrev,AbrevMaladie,Rotation,Luminosite,Symetrie,...,Mode,Profondeur de couleur,Moyenne R,Moyenne G,Moyenne B,Taille du fichier,Set,DirPath,FileName,FilePath
0,Apple__Apple_scab,Apple,Apple_scab,0,270deg.jpg,FREC,Scab,270,0,0,...,RGB,8,109.957947,129.504242,119.117355,9606,valid,C:\Users\hadri\Plant project\data\1 New Plant ...,00075aa8-d81a-4184-8541-b692b78d398a___FREC_Sc...,C:\Users\hadri\Plant project\data\1 New Plant ...
1,Apple__Apple_scab,Apple,Apple_scab,0,90deg.jpg,FREC,Scab,90,0,0,...,RGB,8,110.123795,129.66922,119.235626,9960,valid,C:\Users\hadri\Plant project\data\1 New Plant ...,00075aa8-d81a-4184-8541-b692b78d398a___FREC_Sc...,C:\Users\hadri\Plant project\data\1 New Plant ...
2,Apple__Apple_scab,Apple,Apple_scab,0,new30degfliplr.jpg,FREC,Scab,30,0,LR,...,RGB,8,89.325546,109.759598,95.27211,10299,valid,C:\Users\hadri\Plant project\data\1 New Plant ...,00075aa8-d81a-4184-8541-b692b78d398a___FREC_Sc...,C:\Users\hadri\Plant project\data\1 New Plant ...
3,Apple__Apple_scab,Apple,Apple_scab,0,270deg.jpg,FREC,Scab,270,0,0,...,RGB,8,92.044342,125.152634,115.290207,11986,valid,C:\Users\hadri\Plant project\data\1 New Plant ...,01f3deaa-6143-4b6c-9c22-620a46d8be04___FREC_Sc...,C:\Users\hadri\Plant project\data\1 New Plant ...
4,Apple__Apple_scab,Apple,Apple_scab,0,90deg.jpg,FREC,Scab,90,0,0,...,RGB,8,129.272934,125.058243,113.740295,20194,valid,C:\Users\hadri\Plant project\data\1 New Plant ...,0208f4eb-45a4-4399-904e-989ac2c6257c___FREC_Sc...,C:\Users\hadri\Plant project\data\1 New Plant ...


In [42]:
df_NPD.shape

(87863, 23)

In [46]:
df_NPD[df_NPD['Set'] == 'train'].shape, df_NPD[df_NPD['Set'] == 'valid'].shape

((70292, 23), (17571, 23))

In [38]:
df_KaggleData[df_KaggleData['Dataset'] == 'NewPlantDisease'].shape, df_NPD.shape

((87867, 9), (87863, 23))

In [35]:
df_KaggleData[df_KaggleData['Dataset'] == 'PlantDisease'].shape

(54305, 9)

In [36]:
df_KaggleData[df_KaggleData['Dataset'] == 'PlantVillage'].shape

(162916, 9)

In [39]:
df_KaggleData.shape

(305088, 9)

In [40]:
df_KaggleData[df_KaggleData['Dataset'] == 'NewPlantDisease'].shape[0] + df_KaggleData[df_KaggleData['Dataset'] == 'PlantDisease'].shape[0] + df_KaggleData[df_KaggleData['Dataset'] == 'PlantVillage'].shape[0]

305088

In [41]:
df_KaggleData[df_KaggleData['Dataset'] == 'PlantDisease'].shape[0]*3

162915

### 4.2 Transfert aux autres Notebook

In [27]:
%store df_KaggleData
%store df_NPD

Stored 'df_KaggleData' (DataFrame)
Stored 'df_NPD' (DataFrame)


### 4.3 Création des fichiers csv

In [28]:
# Vérification de la présence du répertoire de sauvegarde des fichiers csv
os.makedirs(pathRep_csv, exist_ok=True)
# Création du fichier csv pour le dataframe df_KaggleData
chemin_cible = pathRep_csv + "/df_KaggleData.csv"
df_KaggleData.to_csv(chemin_cible, index=False)
# Création du fichier csv pour le dataframe df_NPD
chemin_cible = pathRep_csv + "/df_NPD.csv"
df_NPD.to_csv(chemin_cible, index=False)

In [30]:
df_KaggleData.head()

Unnamed: 0,Categorie,Plante,Maladie,Saine,Dataset,Set,DirPath,FileName,FilePath
0,Apple__Apple_scab,Apple,Apple_scab,0,NewPlantDisease,valid,C:\Users\hadri\Plant project\data\1 New Plant ...,00075aa8-d81a-4184-8541-b692b78d398a___FREC_Sc...,C:\Users\hadri\Plant project\data\1 New Plant ...
1,Apple__Apple_scab,Apple,Apple_scab,0,NewPlantDisease,valid,C:\Users\hadri\Plant project\data\1 New Plant ...,00075aa8-d81a-4184-8541-b692b78d398a___FREC_Sc...,C:\Users\hadri\Plant project\data\1 New Plant ...
2,Apple__Apple_scab,Apple,Apple_scab,0,NewPlantDisease,valid,C:\Users\hadri\Plant project\data\1 New Plant ...,00075aa8-d81a-4184-8541-b692b78d398a___FREC_Sc...,C:\Users\hadri\Plant project\data\1 New Plant ...
3,Apple__Apple_scab,Apple,Apple_scab,0,NewPlantDisease,valid,C:\Users\hadri\Plant project\data\1 New Plant ...,01f3deaa-6143-4b6c-9c22-620a46d8be04___FREC_Sc...,C:\Users\hadri\Plant project\data\1 New Plant ...
4,Apple__Apple_scab,Apple,Apple_scab,0,NewPlantDisease,valid,C:\Users\hadri\Plant project\data\1 New Plant ...,0208f4eb-45a4-4399-904e-989ac2c6257c___FREC_Sc...,C:\Users\hadri\Plant project\data\1 New Plant ...
