# Clustering des agences :

On doit commencer par trouver des paramètres pertinents qui permettront de créer des catégories d'agences par apprentissage non supervisé (algorithmes de clustering). On va devoir envisager plusieurs types de clusters (suivant les différents types de techniques, comme k-means, DBSCAN, hierarchical clustering...).
- 1ère étape : Feature Engineering
- 2ème étape : Construction des clusters
- 3ème étape : Comparaison

En particulier, ceci permettra de générer deux seuils par cluster, ce qui simplifie (considérablement) le problème, mais également d'accéder à plus de données. Ceci peut être particulièrement utile pour résoudre le problème d'optimisation, en s'intéressant au cluster entier et pas à chacune des agences individuellement. Notamment, on pourra plus facilement envisager d'utiliser des méthodes de bootstrap à partir des données réelles pour générer les échantillons nécessaires à l'application de la méthode SAA.

* Autre possibilité : Développer un modèle de séries temporelles pour chaque cluster, en espérant qu'il arrive à capter les différentes tendances...

1er problème : Trouver des caractéristiques (features) pertinentes pour permettre aux algos de clustering d'établir une classification précise.
Dans un premier temps, au vu de l'exploration préalable des données, on conserve les paramètres suivants:
   - flux nets (versements - retraits) de l'agence : plus facilement manipulable que retraits et versements séparés.
   - fréquence des outliers de retraits : permet aussi d'estimer la proba qu'un outlier de retrait se présente
   - Ecart-type (variabilité) des versements et des retraits : on a vu qu'elle pouvait varier suivant les agences et qu'elle pouvait ou pas contrebalancer les montants
   - Nombre moyen de retraits / versements journaliers
   - Moyenne (ou médiane) des retraits / versements journaliers
   - Ecart-type (variabilité) du montant des retraits / versements journaliers
   - Nombre de ruptures : nombre de jours où l'agence tombe en rupture sur une année par exemple.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.cluster.hierarchy import linkage, dendrogram
from sklearn import KMeans
from sklearn.cluster import DBSCAN

In [None]:
class Clustering_agences:

    # Dans un premier temps, on a besoin de créer un nouveau DataFrame avec les features retenue
    def __init__(self, class_data):
        self.class = class_data
        