## I want to create accurate confidence intervals for synapse samples

Specifically, take a random sample of presynaptic cells from a certain subclass, and ask what percent of its synapses are onto neurons of a certain subclass. The synapses are not independent however, because there are often many synapses between two neurons.

Moreover, the large counts assumption is often violated for the standard error of proportion formula, so the sampling distribution is not normal and has an unkown standard deviation.

In [256]:
import numpy as np
import matplotlib.pyplot as plt
import json

In [249]:
n_ps = 100  # number of values of parameter p to use (between 0 and 1) to find most likely p given p-hat
ps = np.linspace(1/n_ps, 1, n_ps)
p_edges = np.linspace(0, 1, n_ps + 1)

In [285]:
type(np.array([100]))

numpy.ndarray

In [286]:
def get_probs_of_p_hat(sample_size, num_successes, ps=np.linspace(1/100, 1, 100), n_trials=1000):
    """
    sample_size: int
    num_successes: int or np.array of int, 0 <= num_successes <= sample_size
    ps: proportion parameters to use as prior. defaults to uniform prior with 100 samples
    n_trials: number of trials"""
    probs_of_p_hat = np.empty((len(ps), len(num_successes))) if isinstance(num_successes, np.ndarray) else np.empty(ps.shape)
    for i, p in enumerate(ps):
        successes = np.zeros(num_successes.shape) if isinstance(num_successes, np.ndarray) else 0
        for trial in range(n_trials):
            outcome = np.random.binomial(n=sample_size, p=p)
            successes += (outcome == num_successes)
        if isinstance(num_successes, np.ndarray):
            probs_of_p_hat[i, :] = successes / n_trials
        else:
            probs_of_p_hat[i] = successes / n_trials
                                          
    return probs_of_p_hat

In [251]:
def get_CI(x, probs, confidence=0.95):
    """returns the confidence interval of x, where probs[i] == P(x[i] <= x < x[i+1])
    pre: probs sums to 1 and length is one less than len(x)"""
    tail_area = (1 - confidence) / 2
    assert 1 - tail_area / 100 < sum(probs) < 1 + tail_area / 100
    
    lower = 0
    prev_total = 0
    total = probs[lower]
    while total < tail_area:
        prev_total = total
        lower += 1
        total += probs[lower]

    # linearly interpolate the "exact" x
    lowerx = x[lower] + (x[lower + 1] - x[lower]) * (tail_area - prev_total) / (total - prev_total)
    upper = lower
    
    while total < 1 - tail_area:
        prev_total = total
        upper += 1
        total += probs[upper]
    
    upperx = x[upper] + (x[upper + 1] - x[upper]) * (1 - tail_area - prev_total) / (total - prev_total)
    return lowerx, upperx 

In [296]:
for sample_size in tqdm(range(60, 200)):
    print(sample_size)
    CIs[int(sample_size)] = dict()
    
    num_successes = np.arange(0, sample_size + 1)
    probs_of_p_hat = get_probs_of_p_hat(sample_size, num_successes, ps=ps, n_trials=10_000)
    # because of uniform prior, the probability of p_hat given p, is the probability of p given p_hat after normalization
    probs_of_p = probs_of_p_hat / np.sum(probs_of_p_hat, axis=0)
    for j, nsuc in enumerate(num_successes):
        CI = get_CI(p_edges, probs_of_p[:, j], confidence=0.95)
        CIs[int(sample_size)][int(nsuc)] = (float(CI[0]), float(CI[1]))

  0%|                                                                                          | 0/140 [00:00<?, ?it/s]

60


  1%|▌                                                                                 | 1/140 [00:06<15:40,  6.76s/it]

61


  1%|█▏                                                                                | 2/140 [00:13<15:34,  6.77s/it]

62


  2%|█▊                                                                                | 3/140 [00:20<15:30,  6.79s/it]

63


  3%|██▎                                                                               | 4/140 [00:27<15:18,  6.75s/it]

64


  4%|██▉                                                                               | 5/140 [00:33<15:14,  6.77s/it]

65


  4%|███▌                                                                              | 6/140 [00:40<15:05,  6.76s/it]

66


  5%|████                                                                              | 7/140 [00:48<15:35,  7.03s/it]

67


  6%|████▋                                                                             | 8/140 [00:55<15:44,  7.15s/it]

68


  6%|█████▎                                                                            | 9/140 [01:02<15:36,  7.15s/it]

69


  7%|█████▊                                                                           | 10/140 [01:09<15:29,  7.15s/it]

70


  8%|██████▎                                                                          | 11/140 [01:17<15:43,  7.31s/it]

71


  9%|██████▉                                                                          | 12/140 [01:24<15:21,  7.20s/it]

72


  9%|███████▌                                                                         | 13/140 [01:31<15:07,  7.14s/it]

73


 10%|████████                                                                         | 14/140 [01:38<14:55,  7.11s/it]

74


 11%|████████▋                                                                        | 15/140 [01:45<14:57,  7.18s/it]

75


 11%|█████████▎                                                                       | 16/140 [01:53<15:06,  7.31s/it]

76


 12%|█████████▊                                                                       | 17/140 [02:00<14:42,  7.17s/it]

77


 13%|██████████▍                                                                      | 18/140 [02:07<14:24,  7.08s/it]

78


 14%|██████████▉                                                                      | 19/140 [02:14<14:07,  7.00s/it]

79


 14%|███████████▌                                                                     | 20/140 [02:20<13:51,  6.93s/it]

80


 15%|████████████▏                                                                    | 21/140 [02:27<13:41,  6.91s/it]

81


 16%|████████████▋                                                                    | 22/140 [02:34<13:30,  6.87s/it]

82


 16%|█████████████▎                                                                   | 23/140 [02:41<13:21,  6.85s/it]

83


 17%|█████████████▉                                                                   | 24/140 [02:48<13:12,  6.83s/it]

84


 18%|██████████████▍                                                                  | 25/140 [02:54<13:06,  6.84s/it]

85


 19%|███████████████                                                                  | 26/140 [03:01<13:00,  6.85s/it]

86


 19%|███████████████▌                                                                 | 27/140 [03:08<12:53,  6.85s/it]

87


 20%|████████████████▏                                                                | 28/140 [03:15<12:46,  6.84s/it]

88


 21%|████████████████▊                                                                | 29/140 [03:22<12:36,  6.82s/it]

89


 21%|█████████████████▎                                                               | 30/140 [03:29<12:30,  6.82s/it]

90


 22%|█████████████████▉                                                               | 31/140 [03:35<12:26,  6.85s/it]

91


 23%|██████████████████▌                                                              | 32/140 [03:42<12:18,  6.84s/it]

92


 24%|███████████████████                                                              | 33/140 [03:49<12:10,  6.83s/it]

93


 24%|███████████████████▋                                                             | 34/140 [03:56<12:04,  6.83s/it]

94


 25%|████████████████████▎                                                            | 35/140 [04:03<12:00,  6.87s/it]

95


 26%|████████████████████▊                                                            | 36/140 [04:10<11:54,  6.87s/it]

96


 26%|█████████████████████▍                                                           | 37/140 [04:17<11:54,  6.94s/it]

97


 27%|█████████████████████▉                                                           | 38/140 [04:24<11:45,  6.91s/it]

98


 28%|██████████████████████▌                                                          | 39/140 [04:31<11:40,  6.93s/it]

99


 29%|███████████████████████▏                                                         | 40/140 [04:38<11:33,  6.93s/it]

100


 29%|███████████████████████▋                                                         | 41/140 [04:44<11:24,  6.91s/it]

101


 30%|████████████████████████▎                                                        | 42/140 [04:51<11:19,  6.93s/it]

102


 31%|████████████████████████▉                                                        | 43/140 [04:58<11:10,  6.92s/it]

103


 31%|█████████████████████████▍                                                       | 44/140 [05:05<11:06,  6.95s/it]

104


 32%|██████████████████████████                                                       | 45/140 [05:12<10:59,  6.94s/it]

105


 33%|██████████████████████████▌                                                      | 46/140 [05:19<10:51,  6.93s/it]

106


 34%|███████████████████████████▏                                                     | 47/140 [05:26<10:43,  6.92s/it]

107


 34%|███████████████████████████▊                                                     | 48/140 [05:33<10:36,  6.92s/it]

108


 35%|████████████████████████████▎                                                    | 49/140 [05:40<10:29,  6.92s/it]

109


 36%|████████████████████████████▉                                                    | 50/140 [05:47<10:21,  6.90s/it]

110


 36%|█████████████████████████████▌                                                   | 51/140 [05:55<11:01,  7.43s/it]

111


 37%|██████████████████████████████                                                   | 52/140 [06:06<12:12,  8.33s/it]

112


 38%|██████████████████████████████▋                                                  | 53/140 [06:15<12:15,  8.46s/it]

113


 39%|███████████████████████████████▏                                                 | 54/140 [06:25<13:08,  9.17s/it]

114


 39%|███████████████████████████████▊                                                 | 55/140 [06:36<13:23,  9.45s/it]

115


 40%|████████████████████████████████▍                                                | 56/140 [06:47<14:11, 10.13s/it]

116


 41%|████████████████████████████████▉                                                | 57/140 [06:56<13:37,  9.85s/it]

117


 41%|█████████████████████████████████▌                                               | 58/140 [07:04<12:36,  9.22s/it]

118


 42%|██████████████████████████████████▏                                              | 59/140 [07:12<11:53,  8.81s/it]

119


 43%|██████████████████████████████████▋                                              | 60/140 [07:20<11:16,  8.46s/it]

120


 44%|███████████████████████████████████▎                                             | 61/140 [07:28<11:15,  8.56s/it]

121


 44%|███████████████████████████████████▊                                             | 62/140 [07:37<11:03,  8.51s/it]

122


 45%|████████████████████████████████████▍                                            | 63/140 [07:45<10:52,  8.48s/it]

123


 46%|█████████████████████████████████████                                            | 64/140 [07:54<10:41,  8.44s/it]

124


 46%|█████████████████████████████████████▌                                           | 65/140 [08:02<10:30,  8.40s/it]

125


 47%|██████████████████████████████████████▏                                          | 66/140 [08:10<10:15,  8.32s/it]

126


 48%|██████████████████████████████████████▊                                          | 67/140 [08:18<10:08,  8.33s/it]

127


 49%|███████████████████████████████████████▎                                         | 68/140 [08:27<09:59,  8.33s/it]

128


 49%|███████████████████████████████████████▉                                         | 69/140 [08:35<09:45,  8.24s/it]

129


 50%|████████████████████████████████████████▌                                        | 70/140 [08:43<09:33,  8.19s/it]

130


 51%|█████████████████████████████████████████                                        | 71/140 [08:51<09:22,  8.15s/it]

131


 51%|█████████████████████████████████████████▋                                       | 72/140 [08:59<09:18,  8.22s/it]

132


 52%|██████████████████████████████████████████▏                                      | 73/140 [09:07<09:06,  8.16s/it]

133


 53%|██████████████████████████████████████████▊                                      | 74/140 [09:15<08:49,  8.02s/it]

134


 54%|███████████████████████████████████████████▍                                     | 75/140 [09:23<08:42,  8.03s/it]

135


 54%|███████████████████████████████████████████▉                                     | 76/140 [09:31<08:22,  7.85s/it]

136


 55%|████████████████████████████████████████████▌                                    | 77/140 [09:38<08:03,  7.67s/it]

137


 56%|█████████████████████████████████████████████▏                                   | 78/140 [09:45<07:47,  7.55s/it]

138


 56%|█████████████████████████████████████████████▋                                   | 79/140 [09:52<07:34,  7.45s/it]

139


 57%|██████████████████████████████████████████████▎                                  | 80/140 [10:00<07:24,  7.40s/it]

140


 58%|██████████████████████████████████████████████▊                                  | 81/140 [10:07<07:14,  7.36s/it]

141


 59%|███████████████████████████████████████████████▍                                 | 82/140 [10:14<07:06,  7.36s/it]

142


 59%|████████████████████████████████████████████████                                 | 83/140 [10:21<06:57,  7.32s/it]

143


 60%|████████████████████████████████████████████████▌                                | 84/140 [10:29<06:49,  7.32s/it]

144


 61%|█████████████████████████████████████████████████▏                               | 85/140 [10:36<06:41,  7.30s/it]

145


 61%|█████████████████████████████████████████████████▊                               | 86/140 [10:43<06:35,  7.32s/it]

146


 62%|██████████████████████████████████████████████████▎                              | 87/140 [10:51<06:27,  7.32s/it]

147


 63%|██████████████████████████████████████████████████▉                              | 88/140 [10:58<06:20,  7.32s/it]

148


 64%|███████████████████████████████████████████████████▍                             | 89/140 [11:05<06:11,  7.29s/it]

149


 64%|████████████████████████████████████████████████████                             | 90/140 [11:12<06:03,  7.27s/it]

150


 65%|████████████████████████████████████████████████████▋                            | 91/140 [11:20<05:55,  7.26s/it]

151


 66%|█████████████████████████████████████████████████████▏                           | 92/140 [11:27<05:48,  7.26s/it]

152


 66%|█████████████████████████████████████████████████████▊                           | 93/140 [11:34<05:42,  7.29s/it]

153


 67%|██████████████████████████████████████████████████████▍                          | 94/140 [11:42<05:35,  7.30s/it]

154


 68%|██████████████████████████████████████████████████████▉                          | 95/140 [11:49<05:27,  7.28s/it]

155


 69%|███████████████████████████████████████████████████████▌                         | 96/140 [11:56<05:20,  7.29s/it]

156


 69%|████████████████████████████████████████████████████████                         | 97/140 [12:03<05:14,  7.30s/it]

157


 70%|████████████████████████████████████████████████████████▋                        | 98/140 [12:11<05:07,  7.31s/it]

158


 71%|█████████████████████████████████████████████████████████▎                       | 99/140 [12:18<04:59,  7.31s/it]

159


 71%|█████████████████████████████████████████████████████████▏                      | 100/140 [12:25<04:52,  7.32s/it]

160


 72%|█████████████████████████████████████████████████████████▋                      | 101/140 [12:33<04:45,  7.31s/it]

161


 73%|██████████████████████████████████████████████████████████▎                     | 102/140 [12:40<04:37,  7.30s/it]

162


 74%|██████████████████████████████████████████████████████████▊                     | 103/140 [12:47<04:30,  7.30s/it]

163


 74%|███████████████████████████████████████████████████████████▍                    | 104/140 [12:55<04:23,  7.31s/it]

164


 75%|████████████████████████████████████████████████████████████                    | 105/140 [13:02<04:14,  7.26s/it]

165


 76%|████████████████████████████████████████████████████████████▌                   | 106/140 [13:09<04:07,  7.28s/it]

166


 76%|█████████████████████████████████████████████████████████████▏                  | 107/140 [13:16<04:00,  7.28s/it]

167


 77%|█████████████████████████████████████████████████████████████▋                  | 108/140 [13:24<03:57,  7.43s/it]

168


 78%|██████████████████████████████████████████████████████████████▎                 | 109/140 [13:32<03:49,  7.41s/it]

169


 79%|██████████████████████████████████████████████████████████████▊                 | 110/140 [13:39<03:41,  7.38s/it]

170


 79%|███████████████████████████████████████████████████████████████▍                | 111/140 [13:46<03:33,  7.35s/it]

171


 80%|████████████████████████████████████████████████████████████████                | 112/140 [13:53<03:24,  7.31s/it]

172


 81%|████████████████████████████████████████████████████████████████▌               | 113/140 [14:01<03:16,  7.28s/it]

173


 81%|█████████████████████████████████████████████████████████████████▏              | 114/140 [14:08<03:09,  7.30s/it]

174


 82%|█████████████████████████████████████████████████████████████████▋              | 115/140 [14:15<03:03,  7.33s/it]

175


 83%|██████████████████████████████████████████████████████████████████▎             | 116/140 [14:23<02:57,  7.39s/it]

176


 84%|██████████████████████████████████████████████████████████████████▊             | 117/140 [14:30<02:50,  7.40s/it]

177


 84%|███████████████████████████████████████████████████████████████████▍            | 118/140 [14:38<02:42,  7.38s/it]

178


 85%|████████████████████████████████████████████████████████████████████            | 119/140 [14:45<02:35,  7.38s/it]

179


 86%|████████████████████████████████████████████████████████████████████▌           | 120/140 [14:53<02:30,  7.53s/it]

180


 86%|█████████████████████████████████████████████████████████████████████▏          | 121/140 [15:00<02:23,  7.56s/it]

181


 87%|█████████████████████████████████████████████████████████████████████▋          | 122/140 [15:08<02:16,  7.57s/it]

182


 88%|██████████████████████████████████████████████████████████████████████▎         | 123/140 [15:15<02:07,  7.52s/it]

183


 89%|██████████████████████████████████████████████████████████████████████▊         | 124/140 [15:23<02:01,  7.62s/it]

184


 89%|███████████████████████████████████████████████████████████████████████▍        | 125/140 [15:31<01:55,  7.68s/it]

185


 90%|████████████████████████████████████████████████████████████████████████        | 126/140 [15:39<01:47,  7.67s/it]

186


 91%|████████████████████████████████████████████████████████████████████████▌       | 127/140 [15:46<01:38,  7.59s/it]

187


 91%|█████████████████████████████████████████████████████████████████████████▏      | 128/140 [15:54<01:30,  7.58s/it]

188


 92%|█████████████████████████████████████████████████████████████████████████▋      | 129/140 [16:01<01:22,  7.52s/it]

189


 93%|██████████████████████████████████████████████████████████████████████████▎     | 130/140 [16:09<01:14,  7.49s/it]

190


 94%|██████████████████████████████████████████████████████████████████████████▊     | 131/140 [16:16<01:08,  7.59s/it]

191


 94%|███████████████████████████████████████████████████████████████████████████▍    | 132/140 [16:24<01:00,  7.59s/it]

192


 95%|████████████████████████████████████████████████████████████████████████████    | 133/140 [16:32<00:53,  7.60s/it]

193


 96%|████████████████████████████████████████████████████████████████████████████▌   | 134/140 [16:39<00:45,  7.64s/it]

194


 96%|█████████████████████████████████████████████████████████████████████████████▏  | 135/140 [16:47<00:38,  7.69s/it]

195


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 136/140 [16:55<00:31,  7.78s/it]

196


 98%|██████████████████████████████████████████████████████████████████████████████▎ | 137/140 [17:03<00:23,  7.88s/it]

197


 99%|██████████████████████████████████████████████████████████████████████████████▊ | 138/140 [17:11<00:15,  7.84s/it]

198


 99%|███████████████████████████████████████████████████████████████████████████████▍| 139/140 [17:19<00:07,  7.96s/it]

199


100%|████████████████████████████████████████████████████████████████████████████████| 140/140 [17:27<00:00,  7.48s/it]


In [316]:
# for ki in list(CIs.keys()):
#     for k in list(CIs[ki].keys()):
#         temp = CIs[ki][k]
#         del CIs[ki][k]
#         CIs[ki][int(k)] = (float(temp[0]), float(temp[1]))

In [317]:
# type(list(CIs[100].keys())[0])

int

In [318]:
with open("..\data\CIs.json", "w") as f:
    f.write(json.dumps(CIs))

In [280]:
with open("..\data\CIs.json") as f:
    CIs = json.loads(f.read())

In [289]:
probs_of_p.shape

(100, 51)

In [293]:
from tqdm import tqdm

In [149]:
p_hat = num_successes / sample_size
se = np.sqrt(p_hat * (1 - p_hat) / sample_size)
p_hat - 2 * se, p_hat + 2 * se

(-0.1577708763999664, 0.5577708763999665)

In [143]:
np.average(ps, weights=prob_of_p_hat)

0.21232822540781018

In [86]:
prob_of_p_hat

array([0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.001, 0.004,
       0.01 , 0.014, 0.042, 0.034, 0.046, 0.076, 0.105, 0.104, 0.13 ,
       0.128, 0.123, 0.127, 0.144, 0.14 , 0.111, 0.107, 0.094, 0.084,
       0.081, 0.073, 0.057, 0.047, 0.032, 0.03 , 0.013, 0.02 , 0.005,
       0.002, 0.002, 0.005, 0.004, 0.002, 0.002, 0.   , 0.   , 0.   ,
       0.001, 0.001, 0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   ,
       0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   ,
       0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   ,
       0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   ,
       0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   ,
       0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   , 0.   ,
       0.   , 0.   ])