In [1]:
import numpy as np
import numpy.typing as npt

from typing import List

#### Formule mathématique 

Soit $x_{1} < x_{2} < \ldots < x_{N}$ les N scores FICO et $n$ le nombre de buckets.

Si $dp[i][j]$ représente l'erreur quadratique totale minimale lors du partitionnement des $i$ premiers points de données en $j$ buckets, alors nous avons :

$$dp[i][j] = \min_{k=j-1}^{i-1} \left( dp[k][j-1] + \text{error}(k+1, i) \right)$$

où :

$$\text{error}(a, b) = \sum_{i=a}^{b} (x_{i} - \overline{x})^2$$

avec $\overline{x}$ la moyenne des scores FICO de tout le bucket (de $a$ à $b$) :

$$\overline{x} = \frac{1}{b-a+1} \sum_{i=a}^{b} x_{i}$$

In [2]:
def error(a: int, b: int, x: npt.ArrayLike) -> float:
    """0<=a,b<n"""
    return np.var(x[a:b+1])

def find_bucket(x: npt.ArrayLike, n: int) -> List[int]:

    x = np.sort(x)
    N = len(x)

    dp = np.zeros((N, n))
    mini = np.zeros((N, n))


    for j in range(1, n):
        for i in range(N):
            fico_mini = np.inf
            x_mini = 0
            for k in range(j-1, i):
                res = dp[k][j-1] + error(k+1, i)
                if res < fico_mini:
                    fico_mini = res
                    x_mini = x[k]
            mini[i][j] = x_mini
            dp[i][j] = fico_mini

    # Reconstruction de la liste des indices L
    L = []
    nb_points = N # au début n points à traiter
    for t in range(1, n+1):
        L.append(mini[nb_points, n-t])
        nb_points = mini[nb_points, n-t]

    return L
                

