## Pr√©requis

- Python 3.9+
- pandas
- pyarrow (pour la lecture des fichiers Parquet)

> ‚ö†Ô∏è **Important** : Ce notebook est uniquement pertinent pour les datasets qui ont √©t√© chunk√©s **sans overlap**. Si vos chunks ont du texte qui se chevauche (par ex. 50 tokens de chevauchement entre chunks cons√©cutifs), la reconstruction des documents par simple concat√©nation r√©sultera en **du texte dupliqu√©** dans la sortie. Pour les chunks avec overlap, une strat√©gie de d√©duplication plus sophistiqu√©e serait n√©cessaire.

In [None]:
# Installation des d√©pendances si n√©cessaire
# !pip install pandas pyarrow

## Structure des donn√©es d'entr√©e

Les fichiers Parquet d'entr√©e contiennent g√©n√©ralement les colonnes suivantes :

| Colonne | Description |
|---------|-------------|
| `chunk_id` | Identifiant unique du chunk |
| `doc_id` | Identifiant du document original |
| `chunk_index` | Index du chunk dans le document (pour l'ordre) |
| `text` | Contenu textuel du chunk |
| `chunk_text` | *(Obsol√®te)* Texte du chunk format√© |
| `embeddings_bge-m3` | *(Obsol√®te)* Vecteur d'embedding du chunk |
| ... | Autres m√©tadonn√©es sp√©cifiques au corpus |

## √âtape 1 : Importer les biblioth√®ques n√©cessaires

In [1]:
import pandas as pd
from pathlib import Path
import glob

## √âtape 2 : Charger les fichiers Parquet

In [None]:
def load_parquet_files(folder_path: str) -> pd.DataFrame:
    """
    Charge tous les fichiers Parquet d'un dossier et les concat√®ne.
    
    Args:
        folder_path: Chemin vers le dossier contenant les fichiers Parquet
        
    Returns:
        DataFrame contenant toutes les donn√©es des fichiers Parquet
    """
    parquet_files = glob.glob(f"{folder_path}/*.parquet")
    
    if not parquet_files:
        raise FileNotFoundError(f"Aucun fichier Parquet trouv√© dans {folder_path}")
    
    print(f"{len(parquet_files)} fichier(s) Parquet trouv√©(s)")
    
    dfs = []
    for file_path in parquet_files:
        df = pd.read_parquet(file_path)
        print(f"  ‚úì {Path(file_path).name}: {len(df)} lignes")
        dfs.append(df)
    
    combined_df = pd.concat(dfs, ignore_index=True)
    print(f"\nTotal: {len(combined_df)} chunks charg√©s")
    
    return combined_df

In [None]:
# ‚ö†Ô∏è Modifiez ce chemin pour pointer vers votre dossier de fichiers Parquet
parquet_folder = "../../data/parquet/mon_corpus"

# Charger les fichiers
df_chunks = load_parquet_files(parquet_folder)

# Afficher un aper√ßu
df_chunks.head()

In [None]:
# Afficher les colonnes disponibles
print("Colonnes disponibles:")
for col in df_chunks.columns:
    print(f"  - {col}")

## üöÄ √âtape 3 : Supprimer les colonnes obsol√®tes

In [None]:
def remove_obsolete_columns(df: pd.DataFrame) -> pd.DataFrame:
    """
    Supprime les colonnes obsol√®tes du DataFrame.
    
    Args:
        df: DataFrame contenant les donn√©es chunk√©es
        
    Returns:
        DataFrame sans les colonnes obsol√®tes
    """
    obsolete_columns = ["chunk_text", "embeddings_bge-m3"]
    
    # Filtrer les colonnes qui existent r√©ellement
    columns_to_drop = [col for col in obsolete_columns if col in df.columns]
    
    if columns_to_drop:
        df = df.drop(columns=columns_to_drop)
        print(f"Colonnes supprim√©es: {columns_to_drop}")
    else:
        print("‚ÑπAucune colonne obsol√®te trouv√©e")
    
    return df

In [None]:
# Supprimer les colonnes obsol√®tes
df_cleaned = remove_obsolete_columns(df_chunks)

print(f"\nColonnes restantes: {list(df_cleaned.columns)}")

## üöÄ √âtape 4 : Reconstituer les documents originaux

In [None]:
def reconstruct_documents(df: pd.DataFrame, text_column: str = "text") -> pd.DataFrame:
    """
    Reconstitue les documents originaux en concat√©nant les chunks.
    
    Chaque document est reconstitu√© en ordonnant ses chunks par `chunk_index`
    puis en concat√©nant leurs textes.
    
    Args:
        df: DataFrame contenant les chunks
        text_column: Nom de la colonne contenant le texte √† concat√©ner
        
    Returns:
        DataFrame avec un document complet par `doc_id`
    """
    # V√©rifier que les colonnes n√©cessaires existent
    required_columns = ["doc_id", "chunk_index", text_column]
    missing_columns = [col for col in required_columns if col not in df.columns]
    if missing_columns:
        raise ValueError(f"Colonnes manquantes: {missing_columns}")
    
    print(f"Reconstruction de {df['doc_id'].nunique()} documents...")
    
    # Trier par doc_id et chunk_index pour assurer l'ordre correct
    df_sorted = df.sort_values(by=["doc_id", "chunk_index"])
    
    # Identifier les colonnes de m√©tadonn√©es (exclure les colonnes sp√©cifiques aux chunks ET doc_id car c'est la cl√© de groupement)
    chunk_specific_cols = ["chunk_id", "chunk_index", "chunk_xxh64", text_column, "doc_id"]
    metadata_cols = [col for col in df.columns if col not in chunk_specific_cols]
    
    # Agr√©gation : concat√©ner le texte, garder les m√©tadonn√©es de la premi√®re ligne
    agg_dict = {text_column: lambda x: "\n".join(x.astype(str))}
    for col in metadata_cols:
        agg_dict[col] = "first"
    
    df_reconstructed = df_sorted.groupby("doc_id", as_index=False).agg(agg_dict)
    
    # R√©organiser les colonnes : doc_id en premier, puis m√©tadonn√©es, puis texte
    final_columns = ["doc_id"] + metadata_cols + [text_column]
    df_reconstructed = df_reconstructed[[col for col in final_columns if col in df_reconstructed.columns]]
    
    print(f"{len(df_reconstructed)} documents reconstitu√©s")
    
    return df_reconstructed

In [None]:
# Reconstituer les documents
df_documents = reconstruct_documents(df_cleaned)

# Afficher un aper√ßu
df_documents.head()

In [None]:
# V√©rifier le r√©sultat pour un document
sample_doc_id = df_documents['doc_id'].iloc[0]
print(f"Exemple de document reconstitu√© (doc_id: {sample_doc_id})")
print("=" * 60)
print(df_documents[df_documents['doc_id'] == sample_doc_id]['text'].iloc[0][:1000])
print("...")

## üöÄ √âtape 5 : Sauvegarder le r√©sultat

In [None]:
def save_reconstructed_documents(
    df: pd.DataFrame, 
    output_path: str, 
    format: str = "parquet",
    rows_per_file: int = 50000,
    compression: str = "zstd"
) -> None:
    """
    Sauvegarde les documents reconstitu√©s, en les divisant en plusieurs fichiers si n√©cessaire.
    
    Args:
        df: DataFrame contenant les documents reconstitu√©s
        output_path: Chemin de sortie (dossier pour parquet, chemin de fichier pour csv/json)
        format: Format de sortie ("parquet", "csv", ou "json")
        rows_per_file: Nombre cible de lignes par fichier parquet (d√©faut: 50000)
        compression: Algorithme de compression pour parquet ("zstd", "snappy", "gzip", None)
    """
    Path(output_path).parent.mkdir(parents=True, exist_ok=True)
    
    if format == "parquet":
        # Cr√©er le dossier de sortie
        output_folder = Path(output_path)
        output_folder.mkdir(parents=True, exist_ok=True)
        
        total_rows = len(df)
        
        if total_rows <= rows_per_file:
            # Export en un seul fichier
            output_file = output_folder / f"{output_folder.name}_part_0.parquet"
            df.to_parquet(
                output_file, 
                index=False, 
                compression=compression,
                engine="pyarrow"
            )
            print(f"Documents sauvegard√©s dans: {output_file} ({total_rows} lignes)")
        else:
            # Export multi-fichiers
            num_files = (total_rows + rows_per_file - 1) // rows_per_file
            
            for i in range(num_files):
                start_idx = i * rows_per_file
                end_idx = min((i + 1) * rows_per_file, total_rows)
                df_batch = df.iloc[start_idx:end_idx]
                
                output_file = output_folder / f"{output_folder.name}_part_{i}.parquet"
                df_batch.to_parquet(
                    output_file, 
                    index=False, 
                    compression=compression,
                    engine="pyarrow"
                )
                print(f"  Partie {i}: {output_file.name} ({len(df_batch)} lignes)")
            
            print(f"\nTotal: {total_rows} lignes sauvegard√©es dans {num_files} fichier(s) dans {output_folder}/")
    
    elif format == "csv":
        output_file = f"{output_path}.csv"
        df.to_csv(output_file, index=False)
        print(f"Documents sauvegard√©s dans: {output_file}")
    
    elif format == "json":
        output_file = f"{output_path}.json"
        df.to_json(output_file, orient="records", force_ascii=False, indent=2)
        print(f"Documents sauvegard√©s dans: {output_file}")
    
    else:
        raise ValueError(f"Format non support√©: {format}")

In [None]:
# Modifiez ce chemin pour d√©finir votre dossier/fichier de sortie
output_path = "../../data/output/documents_reconstitues"

# Sauvegarder en Parquet (avec compression ZSTD, divis√© en fichiers de 50k lignes)
# Recommand√© pour les grands jeux de donn√©es
save_reconstructed_documents(
    df_documents, 
    output_path, 
    format="parquet",
    rows_per_file=50000,
    compression="zstd"
)

# Ou en JSON (fichier unique)
# save_reconstructed_documents(df_documents, output_path, format="json")