# TP sur les performances de Parquet

L'objectif de ce TP est de montrer l'intérêt de Parquet lorsque la taille des données augmente et qu'elles sont dénormalisées. Nous ferons en particulier une comparaison avec le format CSV.

Nous allons lire et écrire des fichiers avec Pandas, avec un protocole de test bien défini. Les données seront générées aléatoirement.

## Installation et chargement des librairies

In [None]:
%pip install pyarrow matplotlib

In [None]:
from typing import Any, Callable, Dict, List, Tuple
import os
import shutil
import timeit

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

## Génération des données

Nos données seront constituées des champs suivants :
- `usine` : nom de l'usine Transpomme (peu de valeurs distinctes)
- `variete` : nom de la variété de pomme observée (beaucoup de valeurs distinctes)
- `diametre` : diametre mesuré (un entier)
- `poids` : poids de la pomme (un flottant)

Pour pouvoir générer ces données, nous avons besoin de définir quelques paramètres :

In [None]:
USINES = ['Rouen', 'Sarlat', 'Strasbourg', 'Lorient']
VARIETES = [
    'Akane', 'Alkmène', 'Angold', 'Annurca', 'Antarès', 'Antonovka', 'Argillière',
    'Ariane', 'Ascahire', 'Berlepsch', 'Borowitsky', 'Bouvière', 'Braeburn',
    'Cabassou', 'Calypso', 'Cellini', 'Châtaignier', 'Choupette', 'Circe', 'Clivia',
    'Cloche', 'Colapuy', 'Collina', 'Court-Pendu', 'Discovery', 'Diva',
    'Delflopion', 'Chailleux', 'Florina', 'Ecolette', 'Elstar', 'Enterprise', 'Era',
    'Freedom', 'Fuji', 'Gala', 'Gaillarde', 'Galeuse', 'Golchard', 'Gosselet',
    'Goldrush', 'Gravenstein', 'HoneyCrunch', 'Idared', 'Jerseymac', 'Jonagold',
    'Karneval', 'Katja', 'Katka', 'Lanscailler', 'Lobo', 'Luna', 'Melrose',
    'Merlijn', 'McIntosh', 'Modi', 'Ontario', 'Opal', 'Pohorka', 'Pigeonnet',
    'Bismarck', 'Clochard', 'Curé', 'Sauergrauech', 'Empire', 'Rajka', 'Reanda',
    'Rebella', 'Recolor', 'Regine', 'Reglindis', 'Richard', 'Remo', 'Rene',
    'Rewena', 'Rozela', 'RubisGold', 'Sampion', 'Santana', 'Saturn', 'Sirena',
    'Spartan', 'Topaz'
]

DIAMETRE_MIN = 80
DIAMETRE_MAX = 120

POIDS_MIN = 95.
POIDS_MAX = 180.

In [None]:
def generate_dataframe(n_rows: int) -> pd.DataFrame:
    """
    Génère un dataframe Pandas de taille donnée
    """
    return pd.DataFrame({
        'usine': np.random.choice(USINES, n_rows),
        'variete': np.random.choice(VARIETES, n_rows),
        'diametre': np.random.randint(DIAMETRE_MIN, DIAMETRE_MAX, n_rows),
        'poids': POIDS_MIN + (POIDS_MAX - POIDS_MIN) * np.random.random(n_rows)
    })

In [None]:
generate_dataframe(5)

## Tests de performance

In [None]:
# Nombre de lignes à tester
# NB : attention à partir d'un million ça commence à devenir lent !
ROW_NUMBERS_TO_TEST = [
    1_000,
    10_000,
    100_000,
    200_000,
    300_000,
    400_000,
    500_000,
    750_000,
    1_000_000,
]

In [None]:
# Répertoire de données où le dataframe sera stocké
DATA_DIRECTORY = 'data'
DATA_FILE = os.path.join(DATA_DIRECTORY, 'test.dat')
os.makedirs(DATA_DIRECTORY, exist_ok=True)

In [None]:
def get_file_size() -> int:
    """
    Renvoie la taille du fichier
    """
    return os.stat(DATA_FILE).st_size


def run_test(n_rows: int, n_executions: int, format: str, test_name: str, **kwargs) -> Dict:
    """
    Lance les mesures pour un test donné
    """
    df = generate_dataframe(n_rows)
    save_method = getattr(df, 'to_' + format)
    read_method = getattr(pd, 'read_' + format)

    # Informations sur le test
    result = {
        'n_rows': n_rows,
        'test_name': test_name
    }

    # Taille du fichier
    result['file_size_mb'] = get_file_size() / 1_048_576

    ################
    # Ecrire ici les mesures de performance, sous la forme :
    #     result['nom_du_test'] = timeit.timeit(lambda: ..., number=n_executions)
    #
    # Exemple :
    #
    # if test_name == 'calculs':
    #     result['addition'] = timeit.timeit(lambda: 1+2, number=n_executions)
    #     result['multiplication'] = timeit.timeit(lambda: 92*42, number=n_executions)
    #
    # Vous pouvez faire référence à DATA_FILE (nom du fichier de données) dans la lambda
    ################

    return result


def run_all_tests(n_executions: int) -> pd.DataFrame:
    """
    Lance toutes les mesures
    """
    ################
    # Faire appel à la méthode run_test() pour les tests pertinents, en faisant varier le nb de lignes
    # La fonction doit renvoyer un dataframe avec :
    # - n_rows
    # - test_name (ex. nom du format et compression éventuelle)
    # - une colonne par résultat de test retourné par run_test()
    ################

    return pd.DatraFrame()

In [None]:
# 10 = nb d'exécutions
results = run_all_tests(10)

In [None]:
results

## Visualisation

In [None]:
################
# Utiliser par exemple matplotlib pour faire des rapports graphiques des différents tests
# Il faut mettre en avant l'influence du nb de lignes (n_rows) et du format, via test_name
################