# **Module `home_credit.persist`**

✔ Revue des **typehints** et des **docstrings**.

# Mise au point d'une infrastructure de persistance

**Motivation** : pour que ce ne soit pas l’enfer des calculs d'agrégation et de fusion, il pouvoir calculer et sauvegarder toutes les tranches d’agrégation intermédiaires.

La question, c’est comment et quand choisir de charger des données sauvegardée ou de les mettre à jour à l'aide d'un nouveau calcul sous conditions changées (par exemple la précision).

**Spec** :

On se dote d'un mécanisme générique valable pour toutes les fonctions de chargement de données de la version objet des tables Home Credit, basé sur ces 3 paramètres optionnels de toutes les fonctions :
- **`from_file`** : s'il est fixé à vrai, il préempte le calcul et charge depuis le fichier, sous réserve que celui-ci soit disponible. Sinon, il opère comme **`update_file`**. Le nom du fichier n’est pas fourni, pas plus que le dossier de persistance qui sont fixés conventionnellement, cf. le cache de streamlit, à partir des paramètres de la fonction.
- **`no_cache`** pour indiquer qu’on ne souhaite pas surcharger le cache avec une table intermédiaire.
- **`update_file`** qui s’il est vrai entraîne la sauvegarde de ce qui va être calculé.

**Exemple d'application.** Cela pourrait être notamment utile pour des tables associatives simples comme les deux vecteurs de mappage utilisés par les fonctions `currentize` et `targetize` qui sont souvent appelées. À chaque utilisation après que le noyau ait redémarré, cela déclenche le chargement de la table `application` complète (ses deux parties `train` et `test` qui sont ensuite empilées verticalement), pour en extraire juste un petit sous-ensemble. Ce petit sous-ensemble stable, peu susceptible d’être modifié dans le futur a tout intérêt à reposer dans un fichier.

Les fichiers de sauvegarde sont au format `parquet`, ce qui permet d'obtenir des performances spatiales et temporelles significativement supérieures à celles du `CSV`.

Le dossier de persistance est arbitrairement fixé sur **`{project_path}/tmp/persist/`**.

Chaque table et ses dérivés sont regroupés dans un sous-dossier du nom de la table (et donc de la classe qui la représente) :
- **`{project_path}/tmp/persist/application/`**,
- **`{project_path}/tmp/persist/bureau/`**,
- **`{project_path}/tmp/persist/bureau_balance/`**,
- etc

Chaque fonction de production de table a son propre sous-dossier. Par exemple, les sorties de `Application.clean_extended()` et de `Application.clean()` seront sauvegardés dans les sous-dossiers :
- **`{project_path}/tmp/persist/application/clean/`**,
- **`{project_path}/tmp/persist/application/clean_extended/`**.

Par exception, les tables chargées avec la méthode `HomeCreditTable.raw()` le sont à partie du dossier **`{project_path}/dataset/pqt/`**. Cela reste l'emplacement des données de référence qui ne sont jamais modifiées, et il serait mal venu pour notre espace disque de les dupliquer dans **`{project_path}/tmp/persist/`**.

Les noms des fichiers `.pqt` sont déterminés à partir des valeurs des paramètres d'appel de la fonction.

Ainsi, une fonction sans paramètre n'aura au plus qu'un fichier sauvegardé.

L'encodage ? on s'inspire de l'encodage d'url ?


## Encodage des paramètres

Le but est de disposer d'une façon simple et générique pour obtenir le dossier et le code de hachage cible, associé avec les arguments d'appels de la fonction.

Cette version est insuffisamment sécurisée pour une librairie professionnelle, mais suffisante pour notre projet. Dans notre cas de figure, les seuls cas seront des fonctions ou des méthodes de classes.

Il y a ce qu'il faut d'introspection pour éviter de surcharger le travail et la vigilance du développeur. Une évolution pour une version future serait de renforcer les mécanismes d'introspection, et de rendre l'ajout encore plus léger avec un décorateur.

In [None]:
from home_credit.persist import this_f_name, get_persist_params

class A:
    @classmethod
    def class_data_loader(cls, a, b=1, c=True, d=None):
        get_persist_params(locals().copy(), this_f_name(), True)

    @staticmethod
    def static_data_loader(a, b=1, c=True, d=None):
        get_persist_params(locals().copy(), this_f_name(), True)

    def instance_data_loader(self, a, b=1, c=True, d=None):
        get_persist_params(locals().copy(), this_f_name(), True)

def data_loader(a, b=1, c=True, d=None):
    get_persist_params(locals().copy(), this_f_name(), True)

A.class_data_loader(2, 3)
A.static_data_loader(2, 3)
A().instance_data_loader(2, 3)
data_loader(2, 3)

container class name: A
f_name: class_data_loader
kwargs: {'a': 2, 'b': 3, 'c': True, 'd': None}
hcode: ed4c450982bc4fc67b15499359a3b088ac04868d6fabc309e80062525be3a9e1
subdir: a
container class name: None
f_name: static_data_loader
kwargs: {'a': 2, 'b': 3, 'c': True, 'd': None}
hcode: ed4c450982bc4fc67b15499359a3b088ac04868d6fabc309e80062525be3a9e1
subdir: None
container class name: A
f_name: instance_data_loader
kwargs: {'a': 2, 'b': 3, 'c': True, 'd': None}
hcode: ed4c450982bc4fc67b15499359a3b088ac04868d6fabc309e80062525be3a9e1
subdir: a
container class name: None
f_name: data_loader
kwargs: {'a': 2, 'b': 3, 'c': True, 'd': None}
hcode: ed4c450982bc4fc67b15499359a3b088ac04868d6fabc309e80062525be3a9e1
subdir: None


## Gestion de l'index des dataframes sauvegardés

In [None]:
from home_credit.persist import add_entry_to_index, _persist_index

add_entry_to_index("A", "load", {"a": 1, "b": None})
add_entry_to_index("B", "clean", {"a": 1, "b": None})
add_entry_to_index("B", "clean", {"a": 1, "b": 2})

display(_persist_index)

{'a': {'load': {'0c6b73e7b48e199ae73fa63c9220b7027a756e4a76995d767d9cf6fe0fbf6e88': {'a': 1,
    'b': None}}},
 'b': {'clean': {'0c6b73e7b48e199ae73fa63c9220b7027a756e4a76995d767d9cf6fe0fbf6e88': {'a': 1,
    'b': None},
   'd8497d9d82770a70729261095aa98f7ef5154d7af499f8037b6ca250296785a6': {'a': 1,
    'b': 2}}}}

## Utilisation

On réalise la partie la plus fonctionnelle de la spec.

3 paramètres optionnels de toutes les fonctions :
- **`from_file`** : s'il est fixé à vrai, il préempte le calcul et charge depuis le fichier, sous réserve que celui-ci soit disponible. Sinon, il opère comme **`update_file`**. Le nom du fichier n’est pas fourni, pas plus que le dossier de persistance qui sont fixés conventionnellement, cf. le cache de streamlit, à partir des paramètres de la fonction.
- **`no_cache`** pour indiquer qu’on ne souhaite pas surcharger le cache avec une table intermédiaire.
- **`update_file`** qui s’il est vrai entraîne la sauvegarde de ce qui va être calculé.

Exemple avec `Bureau.clean()`

Commençons par sauvegarder le résultat pour nous assurer du mécanisme de persistence indexée :

In [1]:
from home_credit.tables import Bureau

data = Bureau.clean()
display(data)

load C:/Users/franc/Projects/pepper_credit_scoring_tool\dataset\pqt\bureau.pqt
load C:/Users/franc/Projects/pepper_credit_scoring_tool\dataset\pqt\application_train.pqt
load C:/Users/franc/Projects/pepper_credit_scoring_tool\dataset\pqt\application_test.pqt


Unnamed: 0_level_0,CLEAN_BUREAU,TARGET,CREDIT_ACTIVE,CREDIT_CURRENCY,DAYS_CREDIT,CREDIT_DAY_OVERDUE,DAYS_CREDIT_ENDDATE,DAYS_ENDDATE_FACT,AMT_CREDIT_MAX_OVERDUE,CNT_CREDIT_PROLONG,AMT_CREDIT_SUM,AMT_CREDIT_SUM_DEBT,AMT_CREDIT_SUM_LIMIT,AMT_CREDIT_SUM_OVERDUE,CREDIT_TYPE,DAYS_CREDIT_UPDATE,AMT_ANNUITY
SK_ID_CURR,SK_ID_BUREAU,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
215354,5714462,0,Closed,currency 1,497,0,153.0,153.0,,0,91323.00,0.0,,0.0,Consumer credit,131,
215354,5714463,0,Active,currency 1,208,0,-1075.0,,,0,225000.00,171342.0,,0.0,Credit card,20,
215354,5714464,0,Active,currency 1,203,0,-528.0,,,0,464323.50,,,0.0,Consumer credit,16,
215354,5714465,0,Active,currency 1,203,0,,,,0,90000.00,,,0.0,Credit card,16,
215354,5714466,0,Active,currency 1,629,0,-1197.0,,77674.5,0,2700000.00,,,0.0,Consumer credit,21,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
259355,5057750,1,Active,currency 1,44,0,30.0,,0.0,0,11250.00,11250.0,0.0,0.0,Microloan,19,
100044,5057754,0,Closed,currency 1,2648,0,2433.0,2493.0,5476.5,0,38130.84,0.0,0.0,0.0,Consumer credit,2493,
100044,5057762,0,Closed,currency 1,1809,0,1628.0,970.0,,0,15570.00,,,0.0,Consumer credit,967,
246829,5057770,0,Closed,currency 1,1878,0,1513.0,1513.0,,0,36000.00,0.0,0.0,0.0,Consumer credit,1508,


Sauvegarde :

In [4]:
from home_credit.persist import save_to_parquet, add_entry_to_index

data_build_params = {
    "class_name": "Bureau",
    "method_name": "clean",
    "arguments": {}
}
save_to_parquet(data, **data_build_params)
add_entry_to_index(**data_build_params)

Save to C:/Users/franc/Projects/pepper_credit_scoring_tool\tmp\persist\bureau\clean\44136fa355b3678a1146ad16f7e8649e94fb4fc21fe77e8310c060f61caaff8a.pqt


Chargement :

In [1]:
from home_credit.persist import load_from_parquet, is_in_index

data_build_params = {
    "class_name": "Bureau",
    "method_name": "clean",
    "arguments": {}
}
if is_in_index(**data_build_params):
    data = load_from_parquet(**data_build_params)

display(data)

Unnamed: 0_level_0,CLEAN_BUREAU,TARGET,CREDIT_ACTIVE,CREDIT_CURRENCY,DAYS_CREDIT,CREDIT_DAY_OVERDUE,DAYS_CREDIT_ENDDATE,DAYS_ENDDATE_FACT,AMT_CREDIT_MAX_OVERDUE,CNT_CREDIT_PROLONG,AMT_CREDIT_SUM,AMT_CREDIT_SUM_DEBT,AMT_CREDIT_SUM_LIMIT,AMT_CREDIT_SUM_OVERDUE,CREDIT_TYPE,DAYS_CREDIT_UPDATE,AMT_ANNUITY
SK_ID_CURR,SK_ID_BUREAU,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
215354,5714462,0,Closed,currency 1,497,0,153.0,153.0,,0,91323.00,0.0,,0.0,Consumer credit,131,
215354,5714463,0,Active,currency 1,208,0,-1075.0,,,0,225000.00,171342.0,,0.0,Credit card,20,
215354,5714464,0,Active,currency 1,203,0,-528.0,,,0,464323.50,,,0.0,Consumer credit,16,
215354,5714465,0,Active,currency 1,203,0,,,,0,90000.00,,,0.0,Credit card,16,
215354,5714466,0,Active,currency 1,629,0,-1197.0,,77674.5,0,2700000.00,,,0.0,Consumer credit,21,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
259355,5057750,1,Active,currency 1,44,0,30.0,,0.0,0,11250.00,11250.0,0.0,0.0,Microloan,19,
100044,5057754,0,Closed,currency 1,2648,0,2433.0,2493.0,5476.5,0,38130.84,0.0,0.0,0.0,Consumer credit,2493,
100044,5057762,0,Closed,currency 1,1809,0,1628.0,970.0,,0,15570.00,,,0.0,Consumer credit,967,
246829,5057770,0,Closed,currency 1,1878,0,1513.0,1513.0,,0,36000.00,0.0,0.0,0.0,Consumer credit,1508,


Révisons nos classes pour intégrer ces mécanismes : la méthode **`home_credit.persist.controlled_load`** termine l'interface utilisateur et réalise la stratégie spécifiée, avec un maximum de simplicité d'utilisation.

In [1]:
from home_credit.tables import Bureau

data = Bureau.clean()
display(data)

container class name: Bureau
f_name: clean
kwargs: {}
hcode: 44136fa355b3678a1146ad16f7e8649e94fb4fc21fe77e8310c060f61caaff8a
subdir: bureau


Unnamed: 0_level_0,CLEAN_BUREAU,TARGET,CREDIT_ACTIVE,CREDIT_CURRENCY,DAYS_CREDIT,CREDIT_DAY_OVERDUE,DAYS_CREDIT_ENDDATE,DAYS_ENDDATE_FACT,AMT_CREDIT_MAX_OVERDUE,CNT_CREDIT_PROLONG,AMT_CREDIT_SUM,AMT_CREDIT_SUM_DEBT,AMT_CREDIT_SUM_LIMIT,AMT_CREDIT_SUM_OVERDUE,CREDIT_TYPE,DAYS_CREDIT_UPDATE,AMT_ANNUITY
SK_ID_CURR,SK_ID_BUREAU,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
215354,5714462,0,Closed,currency 1,497,0,153.0,153.0,,0,91323.00,0.0,,0.0,Consumer credit,131,
215354,5714463,0,Active,currency 1,208,0,-1075.0,,,0,225000.00,171342.0,,0.0,Credit card,20,
215354,5714464,0,Active,currency 1,203,0,-528.0,,,0,464323.50,,,0.0,Consumer credit,16,
215354,5714465,0,Active,currency 1,203,0,,,,0,90000.00,,,0.0,Credit card,16,
215354,5714466,0,Active,currency 1,629,0,-1197.0,,77674.5,0,2700000.00,,,0.0,Consumer credit,21,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
259355,5057750,1,Active,currency 1,44,0,30.0,,0.0,0,11250.00,11250.0,0.0,0.0,Microloan,19,
100044,5057754,0,Closed,currency 1,2648,0,2433.0,2493.0,5476.5,0,38130.84,0.0,0.0,0.0,Consumer credit,2493,
100044,5057762,0,Closed,currency 1,1809,0,1628.0,970.0,,0,15570.00,,,0.0,Consumer credit,967,
246829,5057770,0,Closed,currency 1,1878,0,1513.0,1513.0,,0,36000.00,0.0,0.0,0.0,Consumer credit,1508,
