## Introduction

Dans ce notebook, nous allons effectuer les opérations suivantes :

1. **Téléchargement du Dataset** :
   - Télécharger le dataset `plantvillage-dataset` depuis Kaggle et le stocker dans l'environnement Colab.

2. **Extraction Sélective des Données** :
   - Extraire uniquement le répertoire `color` du fichier ZIP téléchargé et le stocker dans l'arborescence Colab.

3. **Manipulation des Fichiers** :
   - Lire un fichier CSV contenant une liste d'images à déplacer.
   - Déplacer les images spécifiées dans le fichier CSV depuis le répertoire `color` vers un répertoire spécifique dans l'environnement Colab.

4. **Compression des Données** :
   - Compresser le répertoire `color` en un fichier ZIP et le stocker dans l'arborescence Colab.

5. **Sauvegarde sur Google Drive** :
   - Copier le fichier ZIP créé depuis l'environnement Colab vers Google Drive pour un stockage permanent.

Ces étapes permettront de gérer efficacement les fichiers du dataset et de les sauvegarder pour une utilisation future.


In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd
import shutil
import os

In [4]:
!kaggle datasets download -d abdallahalidev/plantvillage-dataset

Dataset URL: https://www.kaggle.com/datasets/abdallahalidev/plantvillage-dataset
License(s): CC-BY-NC-SA-4.0
Downloading plantvillage-dataset.zip to /content
100% 2.03G/2.04G [00:28<00:00, 138MB/s]
100% 2.04G/2.04G [00:28<00:00, 77.7MB/s]


In [None]:
!unzip /content/plantvillage-dataset.zip -d /content/plantvillage-dataset

In [None]:
import pandas as pd
import shutil
import os

# Chemins des répertoires
source_directory = "/content/plantvillage-dataset/plantvillage dataset/color"
target_directory = "/content/plantvillage-dataset/moved_files"

# Créez le répertoire cible s'il n'existe pas
if not os.path.exists(target_directory):
    os.makedirs(target_directory)

# Chemin vers le fichier CSV
file_to_delete_path = "/content/drive/MyDrive/datasets/files_to_delete.csv"

# Lire le fichier CSV
df = pd.read_csv(file_to_delete_path, delimiter=';')

# Déplacer les fichiers
for index, row in df.iterrows():
    class_name = row['class']
    filename = row['filename']

    # Chemin source et cible
    source_path = os.path.join(source_directory, class_name, filename)
    target_path = os.path.join(target_directory, filename)

    # Vérifier si le fichier existe avant de le déplacer
    if os.path.exists(source_path):
        try:
            shutil.move(source_path, target_path)
            print(f"Moved: {source_path} to {target_path}")
        except Exception as e:
            print(f"Error moving {source_path} to {target_path}: {e}")
    else:
        print(f"File not found: {source_path}")

print("Files moved successfully.")


In [14]:
import os

# Chemin du répertoire cible
target_directory = "/content/plantvillage-dataset/moved_files"

# Compter le nombre de fichiers dans le répertoire cible
file_count = sum([len(files) for r, d, files in os.walk(target_directory)])

print(f"Nombre de fichiers dans le répertoire {target_directory}: {file_count}")

Nombre de fichiers dans le répertoire /content/plantvillage-dataset/moved_files: 25


In [15]:
import os
from google.colab import drive
import shutil

# Chemin du répertoire source à zipper
source_directory = "/content/plantvillage-dataset/plantvillage dataset/color"

# Chemin du fichier ZIP de destination dans l'arborescence Colab
zip_path_colab = "/content/plantvillage_color.zip"

# Créer le fichier ZIP
os.system(f"zip -r '{zip_path_colab}' '{source_directory}'")
print(f"Répertoire {source_directory} compressé en {zip_path_colab}")

# Monter Google Drive
drive.mount('/content/drive')

# Chemin du fichier ZIP de destination dans Google Drive
zip_path_drive = "/content/drive/MyDrive/datasets/plantvillage_color.zip"

# Copier le fichier ZIP vers Google Drive
shutil.copy(zip_path_colab, zip_path_drive)
print(f"Fichier {zip_path_colab} copié dans {zip_path_drive}")


Répertoire /content/plantvillage-dataset/plantvillage dataset/color compressé en /content/plantvillage_color.zip
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Fichier /content/plantvillage_color.zip copié dans /content/drive/MyDrive/datasets/plantvillage_color.zip
