# Création DataFrames DOCUMENTS-SAMPLES

## README
Ce notebook permet de générer des DataFrames composées d'un échantillon des données contenues dans la DataFrame DOCUMENTS.
L'objectif de ces échantillons est de permettre de développer, tester ou appliquer des traitements sur une partie des données, afin de réduire les performances nécessaires, en termes de temps de calcul et d'espace disque requis notamment, afin de rendre possibles certaines opérations en dépit des ressources contraintes qui sont disponibles pour le projet.

Le notebook réalise tout d'abord certaines opérations préalables (chapitre 1), dont la définition des variables globales d'exécution (**A METTRE A JOUR LORS D'UNE PREMIERE UTILISATION**)

A l'issue (chapitre 2), il permet de créer, pour 5 tailles prédéfinies, 5 échantillons de la DataFrame documents (25 DataFrames en tout).
Chaque DataFrame conserve les mêmes proprtions de targets et de train/val/test que la DataFrame d'origine. Les Dataframe sont nommées ainsi: 

DOCUMENTS_SAMPLE_[x]K_[n], où:
- x représente la taille de la DataFrame, en milliers de ligne prend des valeurs parmi {1, 4, 10, 40, 100};
- n est un nombre entier entre 1 et 5, permettant d'identifier l'échantillon.

## 1. Préparation

In [2]:
import os
import itertools
import pandas as pd
from sklearn.model_selection import train_test_split

In [3]:
project_path = '/Users/ben/Work/mle/ds-project/mai25_bds_extraction/' # à modifier par chacun en fonction de son arborescence

data_path = os.path.join(project_path, 'data')
raw_data_path = os.path.join(data_path, 'raw')
extracted_data_path = os.path.join(data_path, 'extracted')
processed_data_path = os.path.join(data_path, 'processed')
metadata_data_path = os.path.join(data_path, 'metadata')

raw_rvl_cdip_path = os.path.join(raw_data_path, 'RVL-CDIP')
rvl_cdip_images_path = os.path.join(raw_rvl_cdip_path, 'images')
rvl_cdip_labels_path = os.path.join(raw_rvl_cdip_path, 'labels')

iit_cdip_images_path = os.path.join(raw_data_path, 'IIT-CDIP', 'images')
iit_cdip_xmls_path = os.path.join(raw_data_path, 'IIT-CDIP', 'xmls')

## 2. Création des DataFrames DOCUMENTS_SAMPLE

### 2.1 Chargement et ajout d'une colonne stratifier
On ajouter cette colonne pour pouvoir l'utiliser ensuite lors de la génération des échantillons, afin de conserver, à la fois la proportion de train/val/test et celle de target. Naturellement, la colonne sera ensuite retirée de la DataFrame échantillon.

In [8]:
df = pd.read_parquet(os.path.join(metadata_data_path, "df_data_sets.parquet")).\
    join(pd.read_parquet(os.path.join(metadata_data_path, "df_encoded_labels.parquet")))
df['stratifier'] = df.data_set + '/' + df.label.astype(str)
df.head()

Unnamed: 0_level_0,data_set,label,stratifier
document_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
aaa06d00,test,6,test/6
aaa08d00,train,9,train/9
aaa09e00,val,11,val/11
aaa10c00,train,2,train/2
aaa11d00,train,3,train/3


### 2.2 Création et sauvegarde des échantillons 

In [12]:
sizes_k = [1, 4, 10, 40, 100]
identifiers = list(range(1, 6))

for random_state, (size, identifier) in enumerate(itertools.product(sizes_k, identifiers)):
    sample_name = f"df_documents_sample_{size}k_{identifier}.parquet"
    sample, _ = train_test_split(df, stratify=df.stratifier, train_size= 1000 * size, random_state=random_state)
    if not os.path.exists(os.path.join(metadata_data_path, "samples")):
        os.makedirs(os.path.join(metadata_data_path, "samples"))
    sample[[]].to_parquet(os.path.join(metadata_data_path, "samples", sample_name))

In [None]:
# Verification
# df = pd.read_parquet(os.path.join(extracted_data_path, "df_documents_sample_100k_5.parquet"))
# print(df.data_set.value_counts())
# print(df.label.value_counts())

In [13]:
pd.read_parquet(os.path.join(metadata_data_path, "samples", "df_documents_sample_1k_3.parquet")).head()

mph87c00
jgw02e00
jar03a00
avb14f00
ags65c00
