In [1]:
%load_ext autoreload
%autoreload 2

import os
import pathlib
cwd = pathlib.Path.cwd()
if cwd.name != 'ryn':
    print('changing directory')
    os.chdir(cwd.parent)

import logging
logger = logging.getLogger()
logger.setLevel(logging.INFO)

changing directory


In [3]:
from ryn.graphs import split
from ryn.graphs import loader

g = loader.load_graphs_from_uri('oke.fb15k237-trainvalidtest')[0]
print(f'loaded {g.str_stats}')

rels = split.Relation.from_graph(g)
rels.sort(key=lambda rel: rel.ratio)
print(f'retrieved {len(rels)} relations')

loaded ryn graph: oke.fb15k237-trainvalidtest
  nodes: 14541
  edges: 310116 (237 types)
  degree:
    mean 42.65
    median 26

retrieved 237 relations


In [None]:
from tabulate import tabulate

rows = [(r.r, r.ratio, len(r.hs), len(r.ts), r.name) for r in rels]

N = 5

print(f'first {N}')
print(tabulate(rows[:N]))

print(f'mid {N}')
m = len(rows) / 2
print(tabulate(rows[int(m-N/2):int(m+N/2)]))

print(f'last {N}')
print(tabulate(rows[-N:]))

In [None]:
import ryn
from ryn.common import plotter

from functools import partial

path = ryn.ENV.CACHE_DIR / 'notes.graph.split' / f'{g.name}.ratio'
prob = partial(split._prob, a=cfg.prob_a, o=cfg.prob_o, s=cfg.prob_s)

plt = plotter.Plotter(title=f'Ratio Distribution {g.name}', xlabel='Relation', ylabel='Ratio', fname=str(path))
plt.ax.scatter(range(len(rels)), [r.ratio for r in rels], color=plotter.CLR[0], s=1)
plt.ax.scatter(range(len(rels)), [prob(x) for x in range(len(rels))], color=plotter.CLR[1], s=1)

print()
plt.plot()
print()

print(tabulate(rows[100:105]))
print([f'{prob(x):.2f}' for x in range(80,90)])

In [None]:
greedy_cfg = split.GreedyConfig(
    owcw_split=.7, trainvalid_split=.7, pathname='greedy',
    prob_a=3, prob_o=len(rels) / 2, prob_s=1/20)

_p = int(greedy_cfg.owcw_split * 100)
print(f'creating a greedy split of {_p}% ow and {100 - _p}% cw data')

seeds = [30061990, 8051991, 25031990, 2041992]
seeds = [30061990, ]
split.create_greedy(g, greedy_cfg, rels, seeds)
print('done')

creating a greedy split of 70% ow and 30% cw data
0 25 3055
1 43 3177
2 120 677


3 85 2512
4 118 344
5 33 320
6 11 1225
7 110 180
8 34 1022
9 60 395
10 195 131
11 167 109
12 206 106
13 234 100
14 91 106
15 161 381


16 5 1596
17 154 973
18 4 1607
19 213 138
20 208 131
21 115 298
22 219 163
23 108 299
24 200 111
25 166 317
26 63 591
27 128 246
28 80 367
29 129 152
30 16 1
31 87 70
32 172 294
33 232 93


34 73 207
35 209 32
36 217 100
37 48 869
38 113 125
39 212 148
40 139 129
41 90 250
42 168 125
43 78 40


44 26 4484
45 0 253
46 14 2154
47 17 9370


48 28 413
49 89 1831
50 82 857
51 124 587
52 51 219
53 185 17
54 71 1731
55 132 120
56 61 682
57 55 74
58 32 1133


59 37 655
60 126 125
61 225 74
62 130 2477
63 95 607
64 100 682
65 215 108
66 233 89
67 2 1921


68 31 6019
69 210 81
70 171 93
71 125 121
72 220 95
73 86 782
74 23 637
75 211 74
76 189 229
77 191 135
78 27 1826
79 50 609
80 156 159
81 204 98


82 19 9501
83 197 51
84 44 572
85 13 5959
86 105 99
87 205 43
88 133 155
89 142 122


90 42 1543
91 182 84
92 74 200
93 7 7713
94 198 181
95 147 19
96 135 130
97 143 438
98 186 128


99 79 211
100 76 1422
101 149 102
102 183 193
103 47 4064
104 193 52
105 184 95
106 121 151
107 46 284
108 103 675


109 112 407
110 72 282
111 203 89
112 116 496
113 202 66
114 101 1180
115 96 348
116 148 349
117 158 189
118 62 195
119 179 90
120 165 46
121 221 176


122 36 418
123 157 235
124 41 1463
125 30 2434
126 173 62
127 134 582


128 22 1418
129 169 411
130 39 425
131 117 434
132 140 139
133 24 1343
134 170 272
135 127 178
136 187 69


137 29 1307
138 107 791
139 1 684
140 181 110
141 59 410
142 20 3916
143 223 50
144 235 104


145 15 2308
146 69 544
147 40 366
148 137 541
149 70 248
150 66 2044
151 102 459
152 106 457
153 18 474
154

 177 174
155 49 134
156 67 213
157 153 122
158 222 81
159 88 176
160 84 665
161 99 58
162 216 156
163 83 408
164 227 41
165 160 269
166 98 126


167 224 142
168 136 395
169 162 157
170 207 117
171 68 298
172 151 86
173 138 146
174 109 400
175 131 237


176 92 1174
177 10 2563
178 93 147
179 155 224
180 199 54
181 52 535
182 111 159
183 236 33
184 145 228


185 38 3089
186 12 1492
187 122 183
188 94 208
189 104 247
190 163 204
191 150 87


192 176 181
193 65 417
194 174 400
195 214 241
196 159 158
197 6 5396
198 21 1106


199 201 79
200 35 651
201 54 89
202 226 59
203 194 148
204 229 147
205 196 63
206 152 311
207 144 72
208 57 489
209 178 125


210 192 224
211 188 146
212 228 73
213 53 75
214 123 207
215 58 1102
216 119 111


217 45 709
218 175 77
219 9 2648
220 75 3740
221 141 189
222 164 111
223 190 100
224 97 383


225 3 4073
226 8 7667
227 77 741


228 56 397
229 64 408
230 81 357
231 114 58
232 146 370
233 180 102
234 218 69
235 230 105
236 231 114


0 25 3055
1 43 3165
2 120 691
3 85 2479
4 118 348


5 33 320
6 11 1233
7 110 180
8 34 1002
9 60 392
10 195 123
11 167 103
12 206 101
13 234 93
14 91 102
15 161 375
16 5 1553


17 154 994
18 4 1553
19 213 133
20 208 125
21 115 301
22 219 153
23 108 267
24 200 106
25 166 278
26 63 613
27 128 226
28 80 367
29 129 154
30 16 133
31 87 359
32 172 302
33 232 4
34 73 198
35 209 34
36 217 55


37 48 3272
38 113 134
39 212 145
40 139 128
41 90 233
42 168 136
43 78 56
44 26 4417
45 0 242


46 14 918
47 17 9285
48 28 1524
49 89 1947
50 82 776
51 124 600
52 51 21
53 185 236
54 71 1725
55 132 

94
56 61 705
57 55 74
58 32 1478
59 37 616
60 126 137
61 225 34
62 130 2530
63 95 587
64 100 254
65 215 87
66 233 76


67 2 1945
68 31 5983
69 210 83
70 171 93
71 125 121
72 220 136
73 86 995
74 23 509
75 211 73
76 189 242
77 191 145


78 27 1982
79 50 632
80 156 187
81 204 93
82 19 9815
83 197 85
84 44 620


85 13 6495
86 105 84
87 205 63
88 133 402
89 142 149
90 42 1618
91 182 144
92 74 187


93 7 7546
94 198 54
95 147 119
96 135 208
97 143 442
98 186 91
99 79 246
100 76 1435
101 149 93
102 183 191


103 47 4228
104 193 88
105 184 77
106 121 160
107 46 275
108 103 693
109 112 484
110 72 306
111 203 131
112 116 628
113 202 114


114 101 1868
115 96 410
116 148 488
117 158 153
118 62 337
119 179 98
120 165 64
121 221 122
122 36 478
123 157 264
124 41 1423


125 30 2434
126 173 60
127 134 566
128 22 1617
129 169 425
130 39 472
131 117 456
132 140 174
133 24 1602


134 170 249
135 127 163
136 187 38
137 29 1281
138 107 832
139 1 678
140 181 106
141 59 449
142 20 4033
143 223 37
144 235 106


145 15 3198
146 69 567
147 40 348
148 137 605
149 70 217
150 66 2375


151 102 435
152 106 648
153 18 395
154 177 169
155 49 140
156 67 203
157 153 99
158 222 59
159 88 171


160 84 673
161 99 47
162 216 151
163 83 521
164 227 61
165 160 369
166 98 132
167 224 147
168 136 454
169 162 123
170 207 88


171 68 509
172 151 79
173 138 129
174 109 415
175 131 211
176 92 1113
177 10 2568
178 93 158


179 155 200
180 199 80
181 52 530
182 111 168
183 236 77
184 145 212
185 38 3124


186 12 1476
187 122 176
188 94 215
189 104 210
190 163 213
191 150 239
192 176 215
193 65 393
194 174 347
195 214 204


196 159 196
197 6 5402
198 21 1245
199 201 77
200 35 574
201 54 83
202 226 90


203 194 147
204 229 135
205 196 88
206 152 273
207 144 68
208 57 488
209 178 125
210 192 202
211 188 213
212 228 89


213 53 81
214 123 207
215 58 1006
216 119 104
217 45 746
218 175 78
219 9

 2548
220 75 3579
221 141 238
222 164 129
223 190 99
224 97 336
225 3 4206


226 8 8059
227 77 648
228 56 411
229 64 405
230 81 376
231 114 45
232 146 382
233 180 102


234 218 90
235 230 103
236 231 94


0 25 3055
1 43 3180
2 120 661
3 85 2520
4 118 353


5 33 323
6 11 1240
7 110 183
8 34 1044
9 60 396
10 195 139
11 167 109
12 206 114
13 234 106
14 91 102
15 161 368
16 5 1605
17 154 985
18 4 1603
19 213 145
20 208 127
21 115 306


22 219 166
23 108 320
24 200 111
25 166 337
26 63 624
27 128 252
28 80 372
29 129 154
30 16 5
31 87 81
32 172 308
33 232 104
34 73 218
35 209 30
36 217 121


37 48 1147
38 113 128
39 212 140
40 139 140
41 90 249
42 168 160
43 78 67
44 26 4635
45 0 265
46 14 2194


47 17 9391
48 28 718
49 89 2066
50 82 870
51 124 636
52 51 207
53 185 30
54 71 1545


55 132 127
56 61 707
57 55 76
58 32 1174
59 37 671
60 126 106
61 225 80
62 130 2467
63 95 584
64 100 685
65 215 29
66 233 93
67 2 2056


68 31 6087
69 210 91
70 171 93
71 125 113
72 220 130
73 86 710
74 23 612
75 211 67
76 189 231
77 191 103
78 27 1932
79 50 621
80 156 151
81 204 86


82 19 9540
83 197 83
84 44 670
85 13 7052
86 105 105
87 205 55
88 133 181
89 142 125


90 42 1532
91 182 179
92 74 222
93 7 7612
94 198 178
95 147 115
96 135 180
97 143 395
98 186 117
99 79 279


100 76 1409
101 149 99
102 183 154
103 47 4214
104 193 60
105 184 90
106 121 134
107 46 260
108 103 716


109 112 400
110 72 398
111 203 141
112 116 633
113 202 80
114 101 1610
115 96 386
116 148 433
117 158 200


118 62 198
119 179 95
120 165 61
121 221 183
122 36 420
123 157 185
124 41 1419
125 30 2421
126 173 65
127 134 599


128 22 1765
129 169 402
130 39 310
131 117 425
132 140 142
133 24 1264
134 170 276
135 127 142
136 187 67


137 29 1314
138 107 781
139 1 699
140 181 111
141 59 398
142 20 3343
143 223 59
144 235 106


145 15 2502
146 69 545
147 40 348
148 137 630
149 70 259
150 66 1858


151 102 458
152 106 422
153 18 541
154 177 179
155 49 137
156 67 213
157 153 127
158 222 97
159 88 169


160 84 694
161 99 45
162 216 93
163 83 446
164 227 84
165 160 232
166 98 165
167 224 155
168 136 445
169 162 146
170 207 115
171 68 438


172 151 75
173 138 128
174 109 425
175 131 252
176 92 1118
177 10 2498
178 93 155
179 155 234
180 199 57
181 52 492


182 111 154
183 236 43
184 145 224
185 38 3245


186 12 1500
187 122 190
188 94 221
189 104 171
190 163 187
191 150 145
192 176 229
193 65 357
194 174 307
195 214 234


196 159 199
197 6 5573
198 21 1134
199 201 76
200 35 681
201 54 84
202 226 88


203 194 140
204 229 132
205 196 85
206 152 422
207 144 67
208 57 491
209 178 125
210 192 230
211 188 165


212 228 80
213 53 81
214 123 260
215 58 1063
216 119 131
217 45 800
218 175 88


219 9 2658
220 75 3769
221 141 225
222 164 125
223 190 93
224 97 376


225 3 4272
226 8 8127
227 77 745
228 56 384
229 64 459


230 81 383
231 114 55
232 146 393
233 180 102
234 218 94
235 230 120
236 231 94


0 25 3055
1 43 3191
2 120 678
3 85 2507
4 118 352
5 33 313


6 11 1223
7 110 190
8 34 998
9 60 410
10 195 135
11 167 112
12 206 112
13 234 106
14 91 105
15 161 365
16 5 1577
17 154 1003
18 4 1584
19 213 133
20 208 124
21

 115 289
22 219 162
23 108 325
24 200 109
25 166 332
26 63 622
27 128 242
28 80 365
29 129 157
30 16 142
31 87 312
32 172 300
33 232 4
34 73 231
35 209 29
36 217 105


37 48 3140
38 113 126
39 212 144
40 139 136
41 90 227
42 168 143
43 78 24
44 26 4359
45 0 262
46 14 895


47 17 9364
48 28 1683
49 89 1878
50 82 767
51 124 601
52 51 29
53 185 225
54 71 1717
55 132 134


56 61 680
57 55 81
58 32 1503
59 37 659
60 126 70
61 225 85
62 130 2415
63 95 579
64 100 250
65 215 108
66 233 80


67 2 1975
68 31 5965
69 210 63
70 171 93
71 125 128
72 220 135
73 86 964
74 23 622
75 211 72
76 189 231


77 191 159
78 27 1874
79 50 618
80 156 164
81 204 93
82 19 9818
83 197 85
84

 44 604
85 13 8999
86 105 94
87 205 88
88 133 396
89 142 133
90 42 1496


91 182 145
92 74 225
93 7 7702
94 198 68
95 147 111
96 135 226
97 143 279
98 186 120
99 79 246


100 76 1260
101 149 104
102 183 209
103 47 4330
104 193 125
105 184 96
106 121 136
107 46 300
108 103 675


109 112 454
110 72 325
111 203 186
112 116 645
113 202 84
114 101 1604
115 96 353
116 148 460
117 158 179
118 62 380
119 179 96
120 165 62


121 221 128
122 36 397
123 157 230
124 41 1346
125 30 2498
126 173 61
127 134 530


128 22 1532
129 169 349
130 39 457
131 117 368
132 140 147
133 24 1367
134 170 323
135 127 132
136 187 47


137 29 1603
138 107 854
139 1 689
140 181 116
141 59 370
142 20 3540
143 223 43
144 235 109


145 15 2902
146 69 606
147 40 420
148 137 575
149 70 223


150 66 2127
151 102 477
152 106 670
153 18 483
154 177 184
155 49 114
156 67 183
157 153 114
158 222 74
159 88 166


160 84 671
161 99 63
162 216 171
163 83 512
164 227 73
165 160 310
166 98 102
167 224 157
168 136 408


169 162 159
170 207 121
171 68 448
172 151 120
173 138 119
174 109 441
175 131 217
176 92 1078


177 10 2317
178 93 126
179 155 210
180 199 64
181 52 465
182 111 133
183 236 70
184 145 232


185 38 3248
186 12 1537
187 122 233
188 94 191
189 104 194
190 163 215
191 150 272
192 176 220
193 65 388


194 174 363
195 214 198
196 159 188
197 6 5209
198 21 1089
199 201 70


200 35 654
201 54 80
202 226 86
203 194 153
204 229 154
205 196 90
206 152 391
207 144 75
208 57 496
209 178 125


210 192 182
211 188 174
212 228 78
213 53 58
214 123 215
215 58 1128
216 119 142


217 45 748
218 175 60
219 9 2711
220 75 3887
221 141 264
222 164 107
223 190 91
224

 97 309
225 3 4326


226 8 8461
227 77 692
228 56 403
229 64 403
230 81 378
231 114 28
232 146 388
233 180 102
