In [1]:
%reload_ext autoreload
%autoreload 3

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import time
import matplotlib.animation as animation
from scipy.stats import binom, t
import matplotlib as mpl
from sklearn import datasets
import itertools
from tqdm import tqdm

from utils import *

In [2]:
X_0 = np.random.rand(50,2) + 1
X_1 = np.random.rand(50,2) - 1
X = np.concatenate([X_0, X_1])

x_min, x_max = min(X[:,0]), max(X[:,0])
y_min, y_max = min(X[:,1]), max(X[:,1])

In [3]:
def build_rand_mat(K, x_min, y_min, x_max, y_max):
    X_H0 = np.random.uniform(size=(K,2)) * np.array([x_max - x_min, y_max - y_min]) + np.array([x_min, y_min])
    W, D_sqinv = compute_G0(X_H0)
    L = compute_laplacian(W, D_sqinv)
    A = compute_AM_normalised(L, D_sqinv, 3) #3 peut être faible
    W, g = compute_Ge(A)
    g.compute_A()
    g.kruskal_algo()
    mat = g.compute_mat()
    return mat, g

In [4]:
def hash_function(V_, K, N):
    return int((V_ - 1) * K / N)

In [11]:
def update_deltas(deltas, eps, K, size, x_min, y_min, x_max, y_max, update_, Q=30, conf_level=0.05):
    res_q = np.zeros((K, Q), dtype=int)
    for q in range(Q):
        res = np.zeros(K, dtype=int)
        mat, g = build_rand_mat(size - 1, x_min, y_min, x_max, y_max)
        omega = g.omega
        V = g.V
        for i in range(len(mat)):
            k = hash_function(int(mat[i, 5]), K, size) 
            pfa = compute_pfa(min(mat[i, 4] / omega, 1), V , mat[i,5])
            if pfa < deltas[k]:
                res[k] += 1
        res_q[:, q] = res.copy()
    s = np.maximum(np.std(res_q, axis=1), 1e-5)
    m = np.mean(res_q, axis=1)
    upd = t.cdf((m - eps / K) / s * np.sqrt(Q - 1), Q-1) > conf_level
    deltas -= (2 * upd - 1) * update_
    deltas = np.minimum(1, deltas)
    return deltas, res_q


In [12]:
def compute_deltas(size, Q=30, conf_level=0.05, eps=1, K=10):
    deltas = 0.99 * np.ones(K)
    update_ = 1e-3
    for i in tqdm(range(100)):
        if i == 10:
            update_ = 1e-4
        if i == 20:
            update_ = 1e-5
        if i == 30:
            update_ = 1e-6
        deltas, res_q = update_deltas(deltas, eps, K, size, x_min, y_min, x_max, y_max, update_, Q, conf_level)
        print(np.mean(np.sum(res_q, axis=0)))
    return deltas

In [13]:
compute_deltas(30, Q=30, conf_level=0.01, eps=1, K=10)

  1%|          | 1/100 [00:00<00:54,  1.82it/s]

0.7


  2%|▏         | 2/100 [00:01<00:55,  1.78it/s]

0.3333333333333333


  3%|▎         | 3/100 [00:01<00:54,  1.77it/s]

0.3333333333333333


  4%|▍         | 4/100 [00:02<00:53,  1.80it/s]

0.6666666666666666


  5%|▌         | 5/100 [00:02<00:53,  1.78it/s]

0.4


  6%|▌         | 6/100 [00:03<00:53,  1.77it/s]

0.3333333333333333


  7%|▋         | 7/100 [00:03<00:53,  1.73it/s]

0.3


  8%|▊         | 8/100 [00:04<00:53,  1.73it/s]

0.23333333333333334


  9%|▉         | 9/100 [00:05<00:54,  1.68it/s]

0.3333333333333333


 10%|█         | 10/100 [00:05<00:53,  1.68it/s]

0.3333333333333333


 11%|█         | 11/100 [00:06<00:53,  1.68it/s]

26.133333333333333


 12%|█▏        | 12/100 [00:06<00:52,  1.68it/s]

0.5666666666666667


 13%|█▎        | 13/100 [00:07<00:51,  1.68it/s]

24.833333333333332


 14%|█▍        | 14/100 [00:08<00:51,  1.66it/s]

0.4


 15%|█▌        | 15/100 [00:08<00:51,  1.64it/s]

24.9


 16%|█▌        | 16/100 [00:09<00:50,  1.66it/s]

0.6


 17%|█▋        | 17/100 [00:10<00:49,  1.66it/s]

24.966666666666665


 18%|█▊        | 18/100 [00:10<00:48,  1.69it/s]

0.5333333333333333


 19%|█▉        | 19/100 [00:11<00:47,  1.70it/s]

24.7


 20%|██        | 20/100 [00:11<00:46,  1.71it/s]

0.4


 21%|██        | 21/100 [00:12<00:45,  1.73it/s]

24.633333333333333


 22%|██▏       | 22/100 [00:12<00:44,  1.74it/s]

0.3333333333333333


 23%|██▎       | 23/100 [00:13<00:44,  1.71it/s]

21.2


 24%|██▍       | 24/100 [00:14<00:44,  1.70it/s]

0.2


 25%|██▌       | 25/100 [00:14<00:43,  1.70it/s]

20.766666666666666


 26%|██▌       | 26/100 [00:15<00:43,  1.68it/s]

0.36666666666666664


 27%|██▋       | 27/100 [00:15<00:43,  1.69it/s]

23.7


 28%|██▊       | 28/100 [00:16<00:42,  1.69it/s]

0.5333333333333333


 29%|██▉       | 29/100 [00:17<00:42,  1.67it/s]

23.3


 30%|███       | 30/100 [00:17<00:42,  1.66it/s]

0.5333333333333333


 31%|███       | 31/100 [00:18<00:42,  1.63it/s]

21.133333333333333


 32%|███▏      | 32/100 [00:18<00:41,  1.63it/s]

2.3333333333333335


 33%|███▎      | 33/100 [00:19<00:40,  1.66it/s]

1.3


 34%|███▍      | 34/100 [00:20<00:39,  1.68it/s]

0.5333333333333333


 35%|███▌      | 35/100 [00:20<00:38,  1.70it/s]

0.6333333333333333


 36%|███▌      | 36/100 [00:21<00:36,  1.73it/s]

0.3333333333333333


 37%|███▋      | 37/100 [00:21<00:36,  1.74it/s]

0.4


 38%|███▊      | 38/100 [00:22<00:35,  1.75it/s]

0.5666666666666667


 39%|███▉      | 39/100 [00:22<00:35,  1.72it/s]

0.3333333333333333


 40%|████      | 40/100 [00:23<00:34,  1.72it/s]

0.5666666666666667


 41%|████      | 41/100 [00:24<00:34,  1.71it/s]

0.43333333333333335


 42%|████▏     | 42/100 [00:24<00:34,  1.70it/s]

0.5


 43%|████▎     | 43/100 [00:25<00:33,  1.71it/s]

0.5


 44%|████▍     | 44/100 [00:25<00:33,  1.69it/s]

0.6333333333333333


 45%|████▌     | 45/100 [00:26<00:32,  1.70it/s]

0.3333333333333333


 46%|████▌     | 46/100 [00:27<00:31,  1.72it/s]

0.3


 47%|████▋     | 47/100 [00:27<00:30,  1.74it/s]

0.26666666666666666


 48%|████▊     | 48/100 [00:28<00:29,  1.76it/s]

0.5333333333333333


 49%|████▉     | 49/100 [00:28<00:29,  1.75it/s]

0.5333333333333333


 50%|█████     | 50/100 [00:29<00:28,  1.78it/s]

0.4


 51%|█████     | 51/100 [00:29<00:27,  1.79it/s]

0.4


 52%|█████▏    | 52/100 [00:30<00:26,  1.78it/s]

0.43333333333333335


 53%|█████▎    | 53/100 [00:30<00:26,  1.79it/s]

0.5


 54%|█████▍    | 54/100 [00:31<00:27,  1.70it/s]

0.4


 55%|█████▌    | 55/100 [00:32<00:25,  1.75it/s]

0.3


 56%|█████▌    | 56/100 [00:32<00:24,  1.77it/s]

0.26666666666666666


 57%|█████▋    | 57/100 [00:33<00:24,  1.79it/s]

0.5666666666666667


 58%|█████▊    | 58/100 [00:33<00:23,  1.79it/s]

0.43333333333333335


 59%|█████▉    | 59/100 [00:34<00:23,  1.76it/s]

0.3


 60%|██████    | 60/100 [00:34<00:22,  1.76it/s]

0.4666666666666667


 61%|██████    | 61/100 [00:35<00:22,  1.75it/s]

0.5333333333333333


 62%|██████▏   | 62/100 [00:36<00:21,  1.76it/s]

0.5


 63%|██████▎   | 63/100 [00:36<00:21,  1.73it/s]

0.4666666666666667


 64%|██████▍   | 64/100 [00:37<00:20,  1.72it/s]

0.23333333333333334


 65%|██████▌   | 65/100 [00:37<00:20,  1.69it/s]

0.23333333333333334


 66%|██████▌   | 66/100 [00:38<00:19,  1.71it/s]

0.26666666666666666


 67%|██████▋   | 67/100 [00:39<00:19,  1.71it/s]

0.26666666666666666


 68%|██████▊   | 68/100 [00:39<00:18,  1.74it/s]

0.8333333333333334


 69%|██████▉   | 69/100 [00:40<00:17,  1.75it/s]

0.26666666666666666


 70%|███████   | 70/100 [00:40<00:16,  1.77it/s]

0.5


 71%|███████   | 71/100 [00:41<00:16,  1.77it/s]

0.3


 72%|███████▏  | 72/100 [00:41<00:15,  1.79it/s]

0.3333333333333333


 73%|███████▎  | 73/100 [00:42<00:14,  1.80it/s]

0.4666666666666667


 74%|███████▍  | 74/100 [00:42<00:14,  1.79it/s]

0.5


 75%|███████▌  | 75/100 [00:43<00:13,  1.80it/s]

0.5333333333333333


 76%|███████▌  | 76/100 [00:44<00:13,  1.79it/s]

0.13333333333333333


 77%|███████▋  | 77/100 [00:44<00:13,  1.76it/s]

0.26666666666666666


 78%|███████▊  | 78/100 [00:45<00:12,  1.74it/s]

0.4666666666666667


 79%|███████▉  | 79/100 [00:45<00:12,  1.74it/s]

0.4


 80%|████████  | 80/100 [00:46<00:11,  1.75it/s]

0.43333333333333335


 81%|████████  | 81/100 [00:46<00:11,  1.71it/s]

0.3333333333333333


 82%|████████▏ | 82/100 [00:47<00:10,  1.73it/s]

0.43333333333333335


 83%|████████▎ | 83/100 [00:48<00:09,  1.72it/s]

0.43333333333333335


 84%|████████▍ | 84/100 [00:48<00:09,  1.72it/s]

0.5333333333333333


 85%|████████▌ | 85/100 [00:49<00:08,  1.73it/s]

0.43333333333333335


 86%|████████▌ | 86/100 [00:49<00:07,  1.76it/s]

0.5


 87%|████████▋ | 87/100 [00:50<00:07,  1.77it/s]

0.36666666666666664


 88%|████████▊ | 88/100 [00:50<00:06,  1.77it/s]

0.4666666666666667


 89%|████████▉ | 89/100 [00:51<00:06,  1.78it/s]

0.43333333333333335


 90%|█████████ | 90/100 [00:52<00:05,  1.79it/s]

0.36666666666666664


 91%|█████████ | 91/100 [00:52<00:05,  1.80it/s]

0.5


 92%|█████████▏| 92/100 [00:53<00:04,  1.76it/s]

0.36666666666666664


 93%|█████████▎| 93/100 [00:53<00:03,  1.77it/s]

0.36666666666666664


 94%|█████████▍| 94/100 [00:54<00:03,  1.77it/s]

0.6666666666666666


 95%|█████████▌| 95/100 [00:54<00:02,  1.76it/s]

0.5333333333333333


 96%|█████████▌| 96/100 [00:55<00:02,  1.76it/s]

0.5333333333333333


 97%|█████████▋| 97/100 [00:56<00:01,  1.78it/s]

0.5


 98%|█████████▊| 98/100 [00:56<00:01,  1.78it/s]

0.4


 99%|█████████▉| 99/100 [00:57<00:00,  1.76it/s]

0.5


100%|██████████| 100/100 [00:57<00:00,  1.73it/s]

0.4





array([0.999994, 0.999996, 0.99999 , 0.999952, 0.999822, 0.999214,
       0.996428, 0.987802, 0.97883 , 0.980886])

In [77]:
K = 10
size = 30
deltas = (1 - 1e-3) * np.ones(K)
deltas = 0.99 * np.ones(K)
eps = 1
conf_level = 0.01
update_ = 1e-3
Q = 50

prev_deltas = deltas.copy()

for i in range(501):
    if i == 10:
        update_ = 1e-4
    if i == 20:
        update_ = 1e-5
    if i == 30:
        update_ = 1e-6
    deltas, res_q = update_deltas(deltas, eps, K, size, x_min, y_min, x_max, y_max, update_, Q=Q)
    if i % 5 == 0:
        diff_delta = np.mean(np.abs(prev_deltas - deltas))
        prev_deltas = deltas.copy()
        print(i, np.mean(res_q), np.mean(np.sum(res_q, axis=0)), diff_delta)
        print(np.mean(res_q, axis=1))
        print(deltas)
print(deltas)

0 0.044 0.44 0.0010000000000000009
[0.   0.   0.   0.   0.   0.   0.   0.06 0.36 0.02]
[0.991 0.991 0.991 0.991 0.991 0.991 0.991 0.989 0.989 0.991]
5 0.022 0.22 0.004200000000000004
[0.   0.   0.   0.   0.   0.   0.   0.04 0.16 0.02]
[0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.988 0.984 0.992]
10 2.586 25.86 0.0033600000000000075
[13.86  6.76  2.66  1.08  0.78  0.44  0.    0.08  0.16  0.04]
[0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9961 0.9899 0.9799 0.9879]
15 0.044 0.44 0.00023999999999997358
[0.   0.   0.   0.02 0.06 0.02 0.02 0.02 0.18 0.12]
[1.     1.     1.     1.     0.9998 0.9996 0.9964 0.9896 0.9794 0.9874]
20 2.468 24.68 0.00014399999999996637
[14.    6.62  2.68  1.04  0.02  0.02  0.04  0.02  0.22  0.02]
[0.99999 0.99999 0.99999 0.99999 0.99981 0.99941 0.99679 0.98961 0.97899
 0.98701]
25 0.026 0.26 2.3999999999890774e-05
[0.   0.   0.02 0.   0.02 0.02 0.   0.04 0.12 0.04]
[1.      1.      1.      0.99996 0.99984 0.9994  0.9968  0.98958 0.97894
 0.98696]
30 2.352 23.52 1

In [56]:
res = np.zeros(K, dtype=int)
mat, g = build_rand_mat(size - 1, x_min, y_min, x_max, y_max)
omega = g.omega
V = g.V
for i in range(len(mat)):
    k = hash_function(int(mat[i, 5]), K, size) 
    pfa = compute_pfa(mat[i, 4] / omega, V , mat[i,5])
    print(pfa)

1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
0.9999999911384875
0.9999999798208312
0.9999999700691523
0.9999999875998891
0.9999999047643218
0.9999998613794215
0.9999998451084481
0.9999999604144829
0.999999981745761
0.9999999021206116
0.9999998940045819
0.9999999082609087
0.9999999616894677
0.9999999688822109
0.9999991706630476
0.999999962033505
0.9999987211584747
0.9999999106375322
0.9999986363246771
0.9999997891130711
0.9999993742809271
0.9999998971524051
0.9999989742958838
0.9999992421055128
0.9999842277884835
0.9999939208290389
0.9998045073352191
nan


In [None]:
K = 10
deltas = (1 - 1e-3) * np.ones(K)
deltas = 0.98 * np.ones(K)
eps = 1
conf_level = 0.01
update_ = 1e-4
Q = 50

prev_deltas = deltas.copy()

for i in range(5001):
    if i == 500:
        update_ = 1e-5
    deltas, res_q = update_deltas(deltas, eps, mat, K, x_min, y_min, x_max, y_max, update_, Q=Q)
    if i % 50 == 0:
        diff_delta = np.mean(np.abs(prev_deltas - deltas))
        prev_deltas = deltas.copy()
        print(i, np.mean(res_q), np.mean(np.sum(res_q, axis=0)), diff_delta)
    if i % 200 == 0:
        print(deltas)
print(deltas)

In [21]:
K = 20
deltas = (1 - 1e-2) * np.ones(K)
eps = 0.1
conf_level = 0.05
update_ = 1e-5
Q = 50

for i in range(1001):
    deltas, res_q = update_deltas(deltas, eps, mat, K, x_min, y_min, x_max, y_max, update_, Q=Q)
    if i % 50 == 0:
        print(i, np.mean(res_q), np.mean(np.sum(res_q, axis=0)))
print(deltas)

0 0.037 0.74
50 0.031 0.62
100 0.036 0.72
150 0.032 0.64
200 0.03 0.6
250 0.025 0.5
300 0.023 0.46
350 0.025 0.5
400 0.033 0.66
450 0.018 0.36
500 0.025 0.5
550 0.027 0.54


KeyboardInterrupt: 

In [33]:
((1 - 1e-2) - deltas[9]) / update_

-1000.0000000000008

In [48]:
deltas[2]

0.9999699999999979

In [16]:
np.sum(res_q, axis=0)

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 0, 1, 1, 2, 0, 1, 1, 1,
       2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0,
       0, 1, 1, 1, 0, 4])

In [11]:
s = np.maximum(np.std(res_q, axis=1), 1e-5)
m = np.mean(res_q, axis=1)
t.cdf((m - eps / K) / s * np.sqrt(Q - 1), Q-1) > conf_level

array([False, False,  True,  True, False,  True,  True,  True,  True,
       False])

In [25]:
deltas

array([0.98534, 0.98534, 0.98534, 0.98534, 0.9854 , 0.99328, 0.99466,
       0.99466, 0.99466, 0.98534])