In [1]:
from importlib import reload
import numpy as np
from numpy import transpose, trace, multiply, power, dot
from numpy.linalg import multi_dot, matrix_power, norm
import scipy.stats as ss
from scipy.special import comb
from sklearn.cluster import KMeans
import math
import pandas as pd
import itertools
import time
from tqdm import tqdm
import seaborn as sns
sns.set()
import matplotlib.pyplot as plt
import pickle
from TracyWidom import TracyWidom
import data_gen as dg
import stat_test as st
import visualizations as viz

In [9]:
# Reload modules in case of modifications
reload(dg)
reload(st)
reload(viz)

<module 'visualizations' from '/Users/louiscam/Dropbox (MIT)/SBMtesting/Simulations-Python/visualizations.py'>

# Experiment 4.1

In [5]:
# Test parameters
level = 0.05

In [6]:
# Simulation parameters
N_rep = 100

### Null setting

In [54]:
# Model parameters
n = 500
K = 1
a = 0.2

In [55]:
# Generate data from SBM
np.random.seed(13)
data = []
for _ in tqdm(range(N_rep)):
    adj = dg.sample_null_adj_mat(n, a)
    data.append(adj)
data = np.array(data)

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 232.11it/s]


In [57]:
# Run PET on data, report estimated power
power_PET = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_PET += st.PET_test(A, level)['reject']
power_PET = power_PET/N_rep
print(f'Empirical power of PET = {power_PET}')

# Run test of Lei (2016) on data, report estimated power
K0 = 1
power_lei = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_lei += st.lei_test(A, K0, level)['reject']
power_lei = power_lei/N_rep
print(f'Empirical power of Lei test = {power_lei}')

# Run model selection approach of Wang & Bickel (2016) on data, report estimated power
Kmax = 2
power_wang = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_wang += st.wangbickel_likelihood_method(A, Kmax, tol=1e-8, tol_fp=1e-4, max_iter=100, 
                                                  init='random', seed=13)['reject']
power_wang = power_wang/N_rep
print(f'Empirical power of Wang & Bickel test = {power_wang}')

# Run oSQ on data, report estimated power
power_SQ = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_SQ += st.SQ_test(A, level)['reject']
power_SQ = power_SQ/N_rep
print(f'Empirical power of SQ = {power_SQ}')

# Run degree on data, report estimated power
power_degree = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_degree += st.degree_test(A, level, two_sided=False)['reject']
power_degree = power_degree/N_rep
print(f'Empirical power of degree = {power_degree}')

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:04<00:00, 24.98it/s]


Empirical power of PET = 0.06


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:21<00:00,  4.73it/s]


Empirical power of Lei test = 0.06


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:48<00:00,  2.05it/s]


Empirical power of Wang & Bickel test = 0.43


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:03<00:00, 27.09it/s]


Empirical power of SQ = 0.05


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 4852.95it/s]

Empirical power of degree = 0.04





### Symmetric setting

In [58]:
# Model parameters
n = 500
K = 2
a = 0.2
b = 0.05

In [59]:
# Generate data from SBM
np.random.seed(13)
data = []
for _ in tqdm(range(N_rep)):
    adj = dg.sample_alt_adj_matrix_sym(n, K, a, b, exact=True)
    data.append(adj)
data = np.array(data)

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 155.12it/s]


In [60]:
# Run PET on data, report estimated power
power_PET = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_PET += st.PET_test(A, level)['reject']
power_PET = power_PET/N_rep
print(f'Empirical power of PET = {power_PET}')

# Run test of Lei (2016) on data, report estimated power
K0 = 1
power_lei = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_lei += st.lei_test(A, K0, level)['reject']
power_lei = power_lei/N_rep
print(f'Empirical power of Lei test = {power_lei}')

# Run model selection approach of Wang & Bickel (2016) on data, report estimated power
Kmax = 2
power_wang = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_wang += st.wangbickel_likelihood_method(A, Kmax, tol=1e-8, tol_fp=1e-4, max_iter=100, 
                                                  init='spectral', seed=13)['reject']
power_wang = power_wang/N_rep
print(f'Empirical power of Wang & Bickel test = {power_wang}')

# Run oSQ on data, report estimated power
power_SQ = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_SQ += st.SQ_test(A, level)['reject']
power_SQ = power_SQ/N_rep
print(f'Empirical power of SQ = {power_SQ}')

# Run degree on data, report estimated power
power_degree = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_degree += st.degree_test(A, level, two_sided=False)['reject']
power_degree = power_degree/N_rep
print(f'Empirical power of degree = {power_degree}')

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:03<00:00, 27.34it/s]


Empirical power of PET = 1.0


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:22<00:00,  4.44it/s]


Empirical power of Lei test = 1.0


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:11<00:00,  8.71it/s]


Empirical power of Wang & Bickel test = 1.0


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:03<00:00, 27.54it/s]


Empirical power of SQ = 1.0


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 3188.66it/s]

Empirical power of degree = 0.0





### Asymmetric setting (rank-1)

In [61]:
# Model parameters
n = 500
K = 2
b = 1
c = 1 
a = b+1/n**(1/2)
eta = np.concatenate((np.repeat(a,int(K/2)),np.repeat(b,int(K/2)))).reshape((K,1))
eta = eta/norm(eta)

In [62]:
# Generate data from SBM
np.random.seed(13)
data = []
for _ in tqdm(range(N_rep)):
    adj = dg.sample_alt_adj_matrix_rank1(n, K, eta, c, exact=True)
    data.append(adj)
data = np.array(data)

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 117.49it/s]


In [63]:
# Run PET on data, report estimated power
power_PET = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_PET += st.PET_test(A, level)['reject']
power_PET = power_PET/N_rep
print(f'Empirical power of PET = {power_PET}')

# Run test of Lei (2016) on data, report estimated power
K0 = 1
power_lei = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_lei += st.lei_test(A, K0, level)['reject']
power_lei = power_lei/N_rep
print(f'Empirical power of Lei test = {power_lei}')

# Run model selection approach of Wang & Bickel (2016) on data, report estimated power
Kmax = 2
power_wang = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_wang += st.wangbickel_likelihood_method(A, Kmax, tol=1e-8, tol_fp=1e-4, max_iter=100, 
                                                  init='random', seed=13)['reject']
power_wang = power_wang/N_rep
print(f'Empirical power of Wang & Bickel test = {power_wang}')

# Run oSQ on data, report estimated power
power_SQ = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_SQ += st.SQ_test(A, level)['reject']
power_SQ = power_SQ/N_rep
print(f'Empirical power of SQ = {power_SQ}')

# Run degree on data, report estimated power
power_degree = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_degree += st.degree_test(A, level, two_sided=False)['reject']
power_degree = power_degree/N_rep
print(f'Empirical power of degree = {power_degree}')

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:04<00:00, 24.47it/s]


Empirical power of PET = 0.88


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:22<00:00,  4.43it/s]


Empirical power of Lei test = 0.02


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [02:43<00:00,  1.63s/it]


Empirical power of Wang & Bickel test = 0.48


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:03<00:00, 28.04it/s]


Empirical power of SQ = 0.04


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 3307.99it/s]

Empirical power of degree = 0.95





### Asymmetric model

In [29]:
# Model parameters
n = 500
K = 2
a = 0.2
b = 0.15
probs = [0.2,0.8]

In [30]:
# Generate data from SBM
np.random.seed(13)
data = []
for _ in tqdm(range(N_rep)):
    adj = dg.sample_alt_adj_matrix_asym(n, K, a, b, probs, exact=False)
    data.append(adj)
data = np.array(data)

100%|████████████████████████████████████████| 100/100 [00:00<00:00, 116.55it/s]


In [33]:
# Run PET on data, report estimated power
power_PET = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_PET += st.PET_test(A, level)['reject']
power_PET = power_PET/N_rep
print(f'Empirical power of PET = {power_PET}')

# Run test of Lei (2016) on data, report estimated power
K0 = 1
power_lei = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_lei += st.lei_test(A, K0, level)['reject']
power_lei = power_lei/N_rep
print(f'Empirical power of Lei test = {power_lei}')

# Run model selection approach of Wang & Bickel (2016) on data, report estimated power
Kmax = 2
power_wang = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_wang += st.wangbickel_likelihood_method(A, Kmax, tol=1e-8, tol_fp=1e-4, max_iter=100, 
                                                  init='random', seed=13)['reject']
power_wang = power_wang/N_rep
print(f'Empirical power of Wang & Bickel test = {power_wang}')

# Run oSQ on data, report estimated power
power_SQ = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_SQ += st.SQ_test(A, level)['reject']
power_SQ = power_SQ/N_rep
print(f'Empirical power of SQ = {power_SQ}')

# Run degree on data, report estimated power
power_degree = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_degree += st.degree_test(A, level, two_sided=False)['reject']
power_degree = power_degree/N_rep
print(f'Empirical power of degree = {power_degree}')

100%|█████████████████████████████████████████| 100/100 [00:03<00:00, 29.93it/s]


Empirical power of PET = 0.92


100%|█████████████████████████████████████████| 100/100 [00:21<00:00,  4.67it/s]


Empirical power of Lei test = 0.56


100%|█████████████████████████████████████████| 100/100 [04:59<00:00,  3.00s/it]


Empirical power of Wang & Bickel test = 0.53


100%|█████████████████████████████████████████| 100/100 [00:03<00:00, 31.42it/s]


Empirical power of SQ = 0.33


100%|███████████████████████████████████████| 100/100 [00:00<00:00, 3327.89it/s]

Empirical power of degree = 0.96





# Experiment 4.2

In [64]:
# Test parameters
level = 0.05

In [65]:
# Simulation parameters
N_rep = 100

### Symmetric setting

In [68]:
# Model parameters
n = 500
K = 2
a = 0.2
b = 0.05

In [69]:
# Generate data from MMSBM
reload(dg)
np.random.seed(13)
data = []
for _ in tqdm(range(N_rep)):
    adj = dg.sample_MMSBM_alt_adj_matrix_sym(n, K, a, b)
    data.append(adj)
data = np.array(data)

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:01<00:00, 94.55it/s]


In [70]:
# Run PET on data, report estimated power
power_PET = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_PET += st.PET_test(A, level)['reject']
power_PET = power_PET/N_rep
print(f'Empirical power of PET = {power_PET}')

# Run test of Lei (2016) on data, report estimated power
K0 = 1
power_lei = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_lei += st.lei_test(A, K0, level)['reject']
power_lei = power_lei/N_rep
print(f'Empirical power of Lei test = {power_lei}')

# Run model selection approach of Wang & Bickel (2016) on data, report estimated power
Kmax = 2
power_wang = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_wang += st.wangbickel_likelihood_method(A, Kmax, tol=1e-8, tol_fp=1e-4, max_iter=100, 
                                                  init='spectral', seed=13)['reject']
power_wang = power_wang/N_rep
print(f'Empirical power of Wang & Bickel test = {power_wang}')

# Run oSQ on data, report estimated power
power_SQ = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_SQ += st.SQ_test(A, level)['reject']
power_SQ = power_SQ/N_rep
print(f'Empirical power of SQ = {power_SQ}')

# Run degree on data, report estimated power
power_degree = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_degree += st.degree_test(A, level, two_sided=False)['reject']
power_degree = power_degree/N_rep
print(f'Empirical power of degree = {power_degree}')

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:03<00:00, 25.40it/s]


Empirical power of PET = 1.0


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:23<00:00,  4.26it/s]


Empirical power of Lei test = 1.0


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:27<00:00,  3.69it/s]


Empirical power of Wang & Bickel test = 0.53


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:03<00:00, 26.97it/s]


Empirical power of SQ = 1.0


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 3307.52it/s]

Empirical power of degree = 0.09





### Asymmetric setting (rank-1)

In [71]:
# Model parameters
n = 500
K = 2
b = 1
c = 0.15 
a = b+1/n**(1/5)
eta = np.concatenate((np.repeat(a,int(K/2)),np.repeat(b,int(K/2)))).reshape((K,1))
eta = eta/norm(eta)
# probs = np.ones(K)/K 
# probs = np.random.uniform(0,10,K)
probs = np.array([0.4,0.6])

In [72]:
# Generate data from MMSBM
np.random.seed(13)
data = []
for _ in tqdm(range(N_rep)):
    adj = dg.sample_MMSBM_alt_adj_matrix_asym2(n, K, eta, c, probs)
    data.append(adj)
data = np.array(data)

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 100.61it/s]


In [74]:
# Run PET on data, report estimated power
power_PET = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_PET += st.PET_test(A, level)['reject']
power_PET = power_PET/N_rep
print(f'Empirical power of PET = {power_PET}')

# Run test of Lei (2016) on data, report estimated power
K0 = 1
power_lei = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_lei += st.lei_test(A, K0, level)['reject']
power_lei = power_lei/N_rep
print(f'Empirical power of Lei test = {power_lei}')

# Run model selection approach of Wang & Bickel (2016) on data, report estimated power
Kmax = 2
power_wang = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_wang += st.wangbickel_likelihood_method(A, Kmax, tol=1e-8, tol_fp=1e-4, max_iter=100, 
                                                  init='random', seed=13)['reject']
power_wang = power_wang/N_rep
print(f'Empirical power of Wang & Bickel test = {power_wang}')

# Run oSQ on data, report estimated power
power_SQ = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_SQ += st.SQ_test(A, level)['reject']
power_SQ = power_SQ/N_rep
print(f'Empirical power of SQ = {power_SQ}')

# Run degree on data, report estimated power
power_degree = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_degree += st.degree_test(A, level, two_sided=False)['reject']
power_degree = power_degree/N_rep
print(f'Empirical power of degree = {power_degree}')

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:03<00:00, 27.53it/s]


Empirical power of PET = 0.98


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:20<00:00,  4.97it/s]


Empirical power of Lei test = 0.31


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [03:07<00:00,  1.88s/it]


Empirical power of Wang & Bickel test = 0.49


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:03<00:00, 27.58it/s]


Empirical power of SQ = 0.03


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 3266.36it/s]

Empirical power of degree = 0.99





### Asymmetric setting

In [37]:
# Model parameters
n = 500
K = 2
a = 0.2
b = 0.15
probs = [0.2,0.8]

In [38]:
# Generate data from MMSBM
reload(dg)
np.random.seed(13)
data = []
for _ in tqdm(range(N_rep)):
    adj = dg.sample_MMSBM_alt_adj_matrix_asym(n, K, a, b, probs)
    data.append(adj)
data = np.array(data)

100%|█████████████████████████████████████████| 100/100 [00:01<00:00, 87.71it/s]


In [39]:
# Run PET on data, report estimated power
power_PET = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_PET += st.PET_test(A, level)['reject']
power_PET = power_PET/N_rep
print(f'Empirical power of PET = {power_PET}')

# Run test of Lei (2016) on data, report estimated power
K0 = 1
power_lei = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_lei += st.lei_test(A, K0, level)['reject']
power_lei = power_lei/N_rep
print(f'Empirical power of Lei test = {power_lei}')

# Run model selection approach of Wang & Bickel (2016) on data, report estimated power
Kmax = 2
power_wang = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_wang += st.wangbickel_likelihood_method(A, Kmax, tol=1e-8, tol_fp=1e-4, max_iter=100, 
                                                  init='random', seed=13)['reject']
power_wang = power_wang/N_rep
print(f'Empirical power of Wang & Bickel test = {power_wang}')

# Run oSQ on data, report estimated power
power_SQ = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_SQ += st.SQ_test(A, level)['reject']
power_SQ = power_SQ/N_rep
print(f'Empirical power of SQ = {power_SQ}')

# Run degree on data, report estimated power
power_degree = 0
for c in tqdm(range(N_rep)): 
    A = data[c,:,:]
    power_degree += st.degree_test(A, level, two_sided=False)['reject']
power_degree = power_degree/N_rep
print(f'Empirical power of degree = {power_degree}')

100%|█████████████████████████████████████████| 100/100 [00:03<00:00, 31.94it/s]


Empirical power of PET = 0.76


100%|█████████████████████████████████████████| 100/100 [00:19<00:00,  5.10it/s]


Empirical power of Lei test = 0.1


100%|█████████████████████████████████████████| 100/100 [03:37<00:00,  2.18s/it]


Empirical power of Wang & Bickel test = 0.59


100%|█████████████████████████████████████████| 100/100 [00:03<00:00, 33.15it/s]


Empirical power of SQ = 0.06


100%|███████████████████████████████████████| 100/100 [00:00<00:00, 3344.61it/s]

Empirical power of degree = 0.87



