# Création d'un fichier CSV de tests pour le chargement du dataset en Java

Le but de ce notebook est de créer un petit fichier CSV permettant de tester la classe `DatasetLoader`. Le fichier de test sera basé sur le dataset d'entrainement.

## Importation des dépendances

Les dépendances nécessaires à la création du CSV de test sont :
- [pandas](https://pandas.pydata.org/)

In [1]:
from os import path, makedirs
from datetime import datetime

import pandas as pd

## Définition des paramètres

On définit ici les paramètres du notebook :
- l'emplacement du dataset initial
- l'empacement de sortie
- la taille du CSV de test

In [2]:
DATASET_PATH = "../../data/processed/NIST-dataset/train/nist_processed_train.csv"
OUTPUT_PATH = "../../data/processed/test"
TEST_FILE_SIZE = 50

On crée le dossier de sortie s'il n'existe pas déjà.

In [3]:
if not path.exists(OUTPUT_PATH):
    makedirs(OUTPUT_PATH)

## Chargement du dataset

On charge ici le dataset initial afin de pouvoir en extraire une partie.

In [4]:
data = pd.read_csv(DATASET_PATH)
data.head()

Unnamed: 0.1,Unnamed: 0,label,x0,x1,x2,x3,x4,x5,x6,x7,...,x1671,x1672,x1673,x1674,x1675,x1676,x1677,x1678,x1679,x1680
0,160182,t,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1
1,279562,M,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1
2,289423,N,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1
3,189193,z,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1
4,295409,O,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1


## Création du fichier de test

On crée le fichier CSV de test en prenant des lignes aléatoires du dataset.

In [5]:
output_content = data.sample(n=TEST_FILE_SIZE)
output_content.head()

Unnamed: 0.1,Unnamed: 0,label,x0,x1,x2,x3,x4,x5,x6,x7,...,x1671,x1672,x1673,x1674,x1675,x1676,x1677,x1678,x1679,x1680
251555,401453,X,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1
179881,305175,O,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1
263019,358258,S,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1
183159,102920,l,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1
224648,286207,N,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1


## Enregistrement du CSV de test

On enregistre le fichier de test à l'emplacement spécifié dans les paramètres en haut du notebook.

In [6]:
FILE_NAME = datetime.now().strftime("%Y%m%d-%H%M%S") + ".csv"
output_content.to_csv(path.join(OUTPUT_PATH, FILE_NAME))