In [1]:
#comparaison entre train/test de reviews.zip et ceux de amazon_review_polarity_csv.tgz

import os
import filecmp

# Définir les chemins des fichiers
base_path = "data_temporaire/machine_learning/machine_learning_extract"
extracted_path = f"{base_path}/amazon_review_polarity_csv"

# Fichiers à comparer
files = ["train.csv", "test.csv"]

# Vérification de chaque fichier
for file_name in files:
    file1 = os.path.join(base_path, file_name)
    file2 = os.path.join(extracted_path, file_name)

    # Vérification des tailles des fichiers
    size_match = os.path.getsize(file1) == os.path.getsize(file2)

    # Vérification du contenu (ligne par ligne, caractère par caractère)
    content_match = filecmp.cmp(file1, file2, shallow=False)

    # Résultats
    print(f"Fichier : {file_name}")
    print(f"- Taille identique : {'✅' if size_match else '❌'}")
    print(f"- Contenu identique : {'✅' if content_match else '❌'}\n")


Fichier : train.csv
- Taille identique : ✅
- Contenu identique : ✅

Fichier : test.csv
- Taille identique : ✅
- Contenu identique : ✅



In [5]:
import pandas as pd
import re

def is_valid_base64(s):
    """
    Vérifie si une chaîne est correctement encodée en Base64 avec un padding valide.
    """
    if not isinstance(s, str):
        return False
    # Vérifie le format Base64 (y compris le padding '=')
    return bool(re.fullmatch(r'^[A-Za-z0-9+/]*={0,2}$', s))

def check_base64_padding_in_csv(csv_file, column_name):
    """
    Vérifie le padding des chaînes Base64 dans une colonne donnée d'un fichier CSV.
    """
    invalid_rows = []
    try:
        print(f"🔍 Vérification du fichier : {csv_file}")
        # Charger le CSV en mémoire par morceaux pour limiter l'utilisation de RAM
        for chunk in pd.read_csv(csv_file, chunksize=1000):
            for index, row in chunk.iterrows():
                value = row.get(column_name)
                if pd.notna(value) and not is_valid_base64(value):
                    invalid_rows.append(index)
        
        if invalid_rows:
            print(f"❌ {len(invalid_rows)} lignes avec des paddings incorrects trouvées.")
            print(f"Lignes problématiques : {invalid_rows[:10]}{'...' if len(invalid_rows) > 10 else ''}")
        else:
            print(f"✔️ Toutes les chaînes dans la colonne '{column_name}' ont un padding valide.")
    except Exception as e:
        print(f"❌ Erreur lors de la vérification du fichier : {e}")

# Fichier CSV à vérifier
csv_file_path = "data/product_eval/test-00000-of-00003.csv"
# Nom de la colonne contenant les données Base64
column_name = "image"

# Exécuter la vérification
check_base64_padding_in_csv(csv_file_path, column_name)


🔍 Vérification du fichier : data/product_eval/test-00000-of-00003.csv
❌ 33334 lignes avec des paddings incorrects trouvées.
Lignes problématiques : [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]...
