In [None]:
#| default_exp container

# container -- un container de datasets Pandas

> Une API très simple qui permet de créer ou charger des containers de données Pandas
>
> Un container donne accès à 3 datasets:
> - le dataset initial qui a servi à la création
> - un dataset épuré (private)
> - un dataset épuré transformé (public) (colonnes anonymisées et données obfusquées)
>
> Et à des fonctions utiles comme 
> - l'exploration de données : afficher des courbes, generer un fichier word avec toutes ces courbes
> - la transformation (anonymisation et obfuscation) ou transformation inverse de données

In [None]:
#| hide
from nbdev.showdoc import *

In [None]:
#| export
import pandas as pd
from fastcore.test import *
from fastcore.utils import *

Sans surprise la 1ere dependance est pandas

In [None]:
import pandas as pd

In [None]:
df_basic = pd.DataFrame([[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]], columns=['A', 'B', 'C', 'D', 'E'])
df_basic

Unnamed: 0,A,B,C,D,E
0,0,1,2,3,4
1,5,6,7,8,9


Je vais faire les tests de base avec ce dataset hyper simple

In [None]:
#| export
class Container():
    """Un container de dataset qui s'initialise en passant une `clé` et un `dataset`
    """
    def __init__(self, 
                 cle : str, # la clé du container
                 dataset : pd.DataFrame = None, # le dataset
                 colonnes_a_masquer : list = [], # les colonnes à masquer
                 colonnes_a_conserver : list = [] # les colonnes qui ne seront pas transformées
                ):
        self.cle = cle
        self.dataset = dataset
    def __str__(self):
        return f'Container for "{self.cle}" of shape {self.dataset.shape}' 
    __repr__ = __str__

Un exemple de création d'un container, et ce que ça affiche

In [None]:
basic = Container('hyper_basic', df_basic)
basic

Container for "hyper_basic" of shape (2, 5)

## Egalité de 2 containers

Si la clé et la meme, et le shape du dataset également, alors on est sur le meme container

In [None]:
#| export
@patch
def __eq__(self:Container, cont_b:Container): return (self.cle, self.dataset.shape) == (cont_b.cle, cont_b.dataset.shape)

In [None]:
df_basic2 = pd.DataFrame([[0, 1, 3, 4], [5, 6, 8, 9]], columns=['A', 'B', 'D', 'E'])
df_basic2

Unnamed: 0,A,B,D,E
0,0,1,3,4
1,5,6,8,9


ici quelques tests d'égalité

In [None]:
test_eq(Container('basic', df_basic), Container('basic', df_basic))

In [None]:
#| hide
test_ne(Container('basic', df_basic), Container('basic2', df_basic))
test_ne(Container('basic', df_basic), Container('basic', df_basic2))
test_ne(Container('basic', df_basic), Container('basic2', df_basic2))

## longueur

In [None]:
#| export
@patch
def longueur(self:Container):
    '''retourne le nombre de lignes du dataset'''
    return self.dataset.shape[0]

In [None]:
df_basic2 = pd.DataFrame([[0, 1, 3, 4], [5, 6, 8, 9]], columns=['A', 'B', 'D', 'E'])
Container('basic', df_basic2).longueur()

2

In [None]:
#| hide
test_eq(Container('basic', df_basic2).longueur(), 2)

In [None]:
#| hide
import nbdev; nbdev.nbdev_export()