# Pinder loader



Pinder loader brings together filters, transforms and writers to create an optionally parallel `PinderSystem` iterator. 

Takes either split or list of systems as input.


In [1]:
from pinder.core import PinderLoader
from pinder.core.loader import filters

base_filters = [
    filters.FilterByMissingHolo(),
    filters.FilterSubByContacts(min_contacts=5, radius=10.0, calpha_only=True),
    filters.FilterByHoloElongation(max_var_contribution=0.92),
    filters.FilterDetachedHolo(radius=12, max_components=2),
]
sub_filters = [
    filters.FilterSubByAtomTypes(min_atom_types=4),
    filters.FilterByHoloOverlap(min_overlap=5),
    filters.FilterByHoloSeqIdentity(min_sequence_identity=0.8),
    filters.FilterSubLengths(min_length=0, max_length=1000),
    filters.FilterSubRmsds(rmsd_cutoff=7.5),
    filters.FilterByElongation(max_var_contribution=0.92),
    filters.FilterDetachedSub(radius=12, max_components=2),
]
loader = PinderLoader(
    base_filters = base_filters,
    sub_filters = sub_filters
)

loader

PinderLoader(
    dimers=None,
    base_filters=[
        FilterByMissingHolo,
        FilterSubByContacts,
        FilterByHoloElongation,
        FilterDetachedHolo,
    ],
    sub_filters=[
        FilterSubByAtomTypes,
        FilterByHoloOverlap(min_overlap=5),
        FilterByHoloSeqIdentity(min_sequence_identity=0.8),
        FilterSubLengths,
        FilterSubRmsds,
        FilterByElongation,
        FilterDetachedSub,
    ],
    writer=None,
)

## Loading a specific split
Note: only the test dataset has a subset defined (`pinder_s, pinder_xl, pinder_af2`)

For train and val, you could just do:
```python
loader.load_split("train")
loader.load_split("val")
```


In [2]:
loader.load_split("test", "pinder_af2")

In [3]:
loaded_ids = []
for dimer in loader.dimers:
    print(dimer.entry.id)

  1%|█▏                                                                                                                                                                                                           | 1/180 [00:00<02:41,  1.11it/s]

7rzb__A1_A0A229LVN5--7rzb__A2_A0A229LVN5


  1%|██▎                                                                                                                                                                                                          | 2/180 [00:01<01:31,  1.94it/s]

7uln__A1_P09514--7uln__B1_P09514


  2%|███▍                                                                                                                                                                                                         | 3/180 [00:01<01:08,  2.59it/s]

7dnu__A1_P32092--7dnu__A2_P32092


  2%|████▌                                                                                                                                                                                                        | 4/180 [00:01<01:06,  2.66it/s]

8b3s__A1_O31597--8b3s__B1_A0A164W157


  3%|█████▋                                                                                                                                                                                                       | 5/180 [00:02<00:59,  2.93it/s]

8oqj__B1_P06959--8oqj__A1_P06959


  4%|███████▉                                                                                                                                                                                                     | 7/180 [00:02<00:49,  3.50it/s]

8gzy__A1_P0A9A6--8gzy__B1_UNDEFINED
8pr6__B1_A0A1Q6BKH4--8pr6__A1_A0A1Q6BKH4


  4%|█████████                                                                                                                                                                                                    | 8/180 [00:02<00:51,  3.32it/s]

8j64__A1_Q967S9--8j64__B1_O00816


  5%|██████████▎                                                                                                                                                                                                  | 9/180 [00:03<00:50,  3.41it/s]

7ubk__B1_P03047--7ubk__A1_P03047


  6%|███████████▎                                                                                                                                                                                                | 10/180 [00:03<00:51,  3.27it/s]

7zj1__B1_P55265--7zj1__A1_P55265


  6%|████████████▍                                                                                                                                                                                               | 11/180 [00:03<01:01,  2.76it/s]

7ula__B1_Q88ND0--7ula__A1_Q88NC7


  7%|█████████████▌                                                                                                                                                                                              | 12/180 [00:04<00:53,  3.12it/s]

7zjc__A1_P0DV83--7zjc__A2_P0DV83


  7%|██████████████▋                                                                                                                                                                                             | 13/180 [00:04<00:50,  3.31it/s]

8ju7__A1_Q9I2U4--8ju7__B1_Q9I2U4


  8%|███████████████▊                                                                                                                                                                                            | 14/180 [00:04<00:46,  3.53it/s]

7ztw__A1_Q66578--7ztw__B1_Q66578


  9%|██████████████████▏                                                                                                                                                                                         | 16/180 [00:05<00:52,  3.11it/s]

8ic1__A1_UNDEFINED--8ic1__B1_UNDEFINED


  9%|███████████████████▎                                                                                                                                                                                        | 17/180 [00:05<01:00,  2.68it/s]

8b28__A1_F6GSX7--8b28__A2_F6GSX7


 10%|████████████████████▍                                                                                                                                                                                       | 18/180 [00:06<00:55,  2.92it/s]

7zal__A1_E3T5W0--7zal__E2_E3T5W0


 11%|█████████████████████▌                                                                                                                                                                                      | 19/180 [00:06<00:54,  2.95it/s]

7qfz__B1_B7L3Y3--7qfz__A1_B7L3Y3


 11%|██████████████████████▋                                                                                                                                                                                     | 20/180 [00:06<00:54,  2.92it/s]

7xky__A1_Q58690--7xky__B1_Q58034


 12%|███████████████████████▊                                                                                                                                                                                    | 21/180 [00:07<00:57,  2.74it/s]

8f71__B1_Q6N5G3--8f71__A1_Q6N5G3


 12%|████████████████████████▉                                                                                                                                                                                   | 22/180 [00:08<01:30,  1.75it/s]

8ic6__A1_UNDEFINED--8ic6__B1_UNDEFINED


 13%|██████████████████████████                                                                                                                                                                                  | 23/180 [00:08<01:14,  2.12it/s]

8qfo__A1_A0A840P3H4--8qfo__B1_A0A840P3H4


 14%|████████████████████████████▎                                                                                                                                                                               | 25/180 [00:09<00:55,  2.80it/s]

7qfk__C1_Q5FLN0--7qfk__A1_Q5FLN0
8dfk__A1_P39694--8dfk__B1_P39694


 14%|█████████████████████████████▍                                                                                                                                                                              | 26/180 [00:09<00:48,  3.16it/s]

8hno__A1_B6YTS4--8hno__B1_B6YTS4


 15%|██████████████████████████████▌                                                                                                                                                                             | 27/180 [00:09<00:43,  3.53it/s]

8hn2__A1_Q9F722--8hn2__B1_Q9F722


 16%|████████████████████████████████▊                                                                                                                                                                           | 29/180 [00:10<00:41,  3.67it/s]

7p0h__A1_O26008--7p0h__C1_O26008


 17%|██████████████████████████████████                                                                                                                                                                          | 30/180 [00:10<00:36,  4.11it/s]

8h56__A1_Q8BB16--8h56__B1_Q8BB16


 17%|███████████████████████████████████▏                                                                                                                                                                        | 31/180 [00:10<00:48,  3.05it/s]

8d3t__B1_A0A2K2AMS7--8d3t__A1_A0A2K2AMS7


 18%|█████████████████████████████████████▍                                                                                                                                                                      | 33/180 [00:11<00:40,  3.59it/s]

8af9__A1_Q2YPZ9--8af9__H1_Q2YPZ9


 19%|███████████████████████████████████████▋                                                                                                                                                                    | 35/180 [00:11<00:34,  4.14it/s]

7x2p__A1_Q5ZWH7--7x2p__B1_Q5ZWH7
7n35__A1_UNDEFINED--7n35__B2_UNDEFINED


 20%|████████████████████████████████████████▊                                                                                                                                                                   | 36/180 [00:11<00:36,  3.90it/s]

7tcr__A1_A0A2D2D5M1--7tcr__D1_A0A2D2CY73


 21%|█████████████████████████████████████████▉                                                                                                                                                                  | 37/180 [00:12<00:43,  3.31it/s]

8bgm__B1_A0A5P3XKL3--8bgm__A1_A0A5P3XKM0


 22%|████████████████████████████████████████████▏                                                                                                                                                               | 39/180 [00:15<02:07,  1.11it/s]

7wbt__A1_Q288C4--7wbt__B1_Q288C4


 22%|█████████████████████████████████████████████▎                                                                                                                                                              | 40/180 [00:15<01:52,  1.25it/s]

7z7o__A1_A0A1S4NYF2--7z7o__C1_A0A1S4NYF2


 23%|██████████████████████████████████████████████▍                                                                                                                                                             | 41/180 [00:16<01:58,  1.17it/s]

7vzy__B1_Q84G19--7vzy__A1_Q84G19


 23%|███████████████████████████████████████████████▌                                                                                                                                                            | 42/180 [00:16<01:37,  1.42it/s]

8brp__A1_D8G6F7--8brp__B1_D8G6F7


 24%|████████████████████████████████████████████████▋                                                                                                                                                           | 43/180 [00:17<01:21,  1.68it/s]

7vkb__A1_Q5ZSZ6--7vkb__B1_Q5ZSZ7


 24%|█████████████████████████████████████████████████▊                                                                                                                                                          | 44/180 [00:18<01:30,  1.50it/s]

7vma__A1_C5A758--7vma__A2_C5A758


 25%|███████████████████████████████████████████████████                                                                                                                                                         | 45/180 [00:18<01:30,  1.49it/s]

7ylq__A1_Q93CA6--7ylq__B1_Q93CA6


 26%|████████████████████████████████████████████████████▏                                                                                                                                                       | 46/180 [00:19<01:30,  1.48it/s]

8pte__A1_P00698--8pte__A2_P00698


 27%|██████████████████████████████████████████████████████▍                                                                                                                                                     | 48/180 [00:20<01:02,  2.11it/s]

7ytl__A1_E1BR24--7ytl__A2_E1BR24
7xmw__B1_U2Q5N5--7xmw__A1_U2Q5N5


 27%|███████████████████████████████████████████████████████▌                                                                                                                                                    | 49/180 [00:20<00:48,  2.69it/s]

7ytu__B1_P68623--7ytu__A1_P68458


 28%|████████████████████████████████████████████████████████▋                                                                                                                                                   | 50/180 [00:20<00:44,  2.91it/s]

7skr__A1_Q0QDZ2--7skr__A2_Q0QDZ2


 28%|█████████████████████████████████████████████████████████▊                                                                                                                                                  | 51/180 [00:20<00:42,  3.07it/s]

7yka__B1_Q9Y3D6--7yka__A1_Q9Y3D6


 29%|██████████████████████████████████████████████████████████▉                                                                                                                                                 | 52/180 [00:21<00:40,  3.15it/s]

7yk3__A1_O53604--7yk3__B1_O53605


 29%|████████████████████████████████████████████████████████████                                                                                                                                                | 53/180 [00:21<00:54,  2.35it/s]

7ykv__B1_Q58241--7ykv__A1_Q58241
8imd__A1_UNDEFINED--8imd__B1_UNDEFINED


 31%|██████████████████████████████████████████████████████████████▎                                                                                                                                             | 55/180 [00:22<00:37,  3.31it/s]

8hyn__A1_UNDEFINED--8hyn__B1_UNDEFINED


 31%|███████████████████████████████████████████████████████████████▍                                                                                                                                            | 56/180 [00:22<00:52,  2.35it/s]

7xsh__A1_K1KV82--7xsh__B2_K1KV82


 32%|████████████████████████████████████████████████████████████████▌                                                                                                                                           | 57/180 [00:23<00:44,  2.73it/s]

8v14__A1_G5EEF9--8v14__B1_G5EEF9


 32%|█████████████████████████████████████████████████████████████████▋                                                                                                                                          | 58/180 [00:23<00:52,  2.33it/s]

7s6n__B1_Q5RGJ8--7s6n__A1_Q5RGJ8


 33%|██████████████████████████████████████████████████████████████████▊                                                                                                                                         | 59/180 [00:24<00:51,  2.36it/s]

8iev__A1_Q0PAW2--8iev__B1_Q0PAW2


 34%|█████████████████████████████████████████████████████████████████████▏                                                                                                                                      | 61/180 [00:24<00:34,  3.41it/s]

7unh__A1_UNDEFINED--7unh__B1_UNDEFINED
8tto__A1_UNDEFINED--8tto__B1_UNDEFINED


 34%|██████████████████████████████████████████████████████████████████████▎                                                                                                                                     | 62/180 [00:25<00:49,  2.36it/s]

8a60__A1_P06971--8a60__B1_Q38162


 35%|███████████████████████████████████████████████████████████████████████▍                                                                                                                                    | 63/180 [00:25<00:44,  2.61it/s]

7pvh__A1_B2RLE7--7pvh__B1_B2RLE7


 36%|████████████████████████████████████████████████████████████████████████▌                                                                                                                                   | 64/180 [00:25<00:39,  2.95it/s]

7nli__B1_P08405--7nli__A1_P08405


 37%|██████████████████████████████████████████████████████████████████████████▊                                                                                                                                 | 66/180 [00:27<01:00,  1.88it/s]

8j51__A1_A0A0E9MUN5--8j51__B1_A0A0E9MUN5


 37%|███████████████████████████████████████████████████████████████████████████▉                                                                                                                                | 67/180 [00:27<00:54,  2.07it/s]

8pz3__A1_D7SFB8--8pz3__B1_D7SFB8


 38%|██████████████████████████████████████████████████████████████████████████████▏                                                                                                                             | 69/180 [00:27<00:36,  3.06it/s]

7unj__A1_UNDEFINED--7unj__B1_UNDEFINED
7uav__A1_P0DW58--7uav__B1_P0DW58


 39%|███████████████████████████████████████████████████████████████████████████████▎                                                                                                                            | 70/180 [00:28<00:39,  2.78it/s]

7vrx__D1_A0A6J4AG16--7vrx__B1_A0A6J4AG16


 39%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                           | 71/180 [00:28<00:45,  2.41it/s]

7t5y__A1_P0A7E1--7t5y__B1_P0A7E1


 40%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                                                          | 72/180 [00:29<00:43,  2.46it/s]

7yn1__A1_E9JES9--7yn1__C1_E9JES9


 41%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                                                         | 73/180 [00:29<00:37,  2.83it/s]

8p33__A1_O51254--8p33__A2_O51254


 41%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                                                        | 74/180 [00:30<00:59,  1.78it/s]

8ttz__A1_G8E2R2--8ttz__B2_G8E2R2


 42%|█████████████████████████████████████████████████████████████████████████████████████                                                                                                                       | 75/180 [00:30<00:48,  2.17it/s]

7vrc__A1_P38956--7vrc__B1_P22082


 42%|██████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                     | 76/180 [00:31<00:49,  2.08it/s]

8p4l__A1_UNDEFINED--8p4l__B1_UNDEFINED


 43%|███████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                    | 77/180 [00:31<00:42,  2.43it/s]

8p6k__A1_A0A0H2UWN1--8p6k__B1_A0A0H2UWN1


 43%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                   | 78/180 [00:31<00:38,  2.62it/s]

8jmq__A1_A9CQD5--8jmq__B1_A9CQD3


 44%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                  | 79/180 [00:32<00:49,  2.06it/s]

7zgn__A1_U6RE59--7zgn__B1_U6RE59


 44%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                 | 80/180 [00:33<00:59,  1.68it/s]

7fiw__A1_B3CP63--7fiw__B1_Q73HD5


 45%|███████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                | 81/180 [00:34<01:04,  1.53it/s]

8oru__A1_O93732--8oru__B1_O93732


 46%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                                                              | 83/180 [00:34<00:44,  2.18it/s]

8ori__A1_Q2KB35--8ori__B1_Q2KB35
8hhj__B1_UNDEFINED--8hhj__A1_A0A0Y5KAW3


 47%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                            | 84/180 [00:35<00:41,  2.31it/s]

8d0x__A1_Q9Y231--8d0x__A2_Q9Y231


 48%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                          | 86/180 [00:35<00:30,  3.07it/s]

8bp5__B1_A0A369SI82--8bp5__A1_A0A369SI82
8d03__A1_UNDEFINED--8d03__A2_UNDEFINED


 48%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                         | 87/180 [00:35<00:24,  3.73it/s]

8d04__B1_UNDEFINED--8d04__A1_UNDEFINED


 49%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                        | 88/180 [00:36<00:29,  3.16it/s]

7z6m__A1_A0A0H3LM39--7z6m__A2_A0A0H3LM39


 49%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                       | 89/180 [00:36<00:30,  3.03it/s]

8cnx__A1_Q68T42--8cnx__B1_Q68T42


 51%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                    | 91/180 [00:37<00:24,  3.65it/s]

7wwo__B1_Q5SH57--7wwo__A1_Q5SH57
7tjl__A1_UNDEFINED--7tjl__A2_UNDEFINED


 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 93/180 [00:37<00:24,  3.55it/s]

8d0m__A1_P28907--8d0m__A2_P28907
8fin__A1_UNDEFINED--8fin__B1_UNDEFINED


 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                 | 94/180 [00:38<00:25,  3.32it/s]

7wwf__A1_A0R6Y0--7wwf__B1_A0R6Y0


 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                               | 96/180 [00:38<00:21,  3.94it/s]

8aa9__A1_Q9V1Y9--8aa9__B1_Q9V1Y9
8hdv__A1_UNDEFINED--8hdv__B1_UNDEFINED


 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                              | 97/180 [00:38<00:21,  3.81it/s]

7f4q__B1_Q22GC0--7f4q__A1_I7M8B9
7xgs__A1_Q9FVC1--7xgs__A2_Q9FVC1


 55%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                           | 99/180 [00:39<00:20,  4.03it/s]

8hfp__B1_Q96T68--8hfp__A1_Q8N8R7


 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 100/180 [00:39<00:19,  4.08it/s]

8avu__A1_Q8GPI4--8avu__A2_Q8GPI4


 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                         | 101/180 [00:39<00:21,  3.69it/s]

8i2e__A1_O34841--8i2e__B1_P54421


 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 102/180 [00:40<00:20,  3.89it/s]

7rmx__A1_UNDEFINED--7rmx__A2_UNDEFINED


 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 104/180 [00:40<00:17,  4.38it/s]

8ji6__A1_A0A861B387--8ji6__B1_A0A861B387
8d05__A1_UNDEFINED--8d05__A2_UNDEFINED


 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 105/180 [00:40<00:24,  3.05it/s]

8h1l__B1_A0A7U4E834--8h1l__A1_A0A7U4E834


 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 106/180 [00:41<00:28,  2.57it/s]

7z98__A1_E6V140--7z98__A2_E6V140


 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 107/180 [00:41<00:24,  2.97it/s]

8h1i__A1_W6EBY7--8h1i__B1_P0A9Y6


 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 109/180 [00:42<00:28,  2.51it/s]

7vt9__A1_P21517--7vt9__B1_P21517


 61%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 110/180 [00:42<00:24,  2.89it/s]

7pjo__B1_UNDEFINED--7pjo__A1_UNDEFINED


 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 111/180 [00:43<00:22,  3.02it/s]

8aeu__A1_Q00987--8aeu__A2_Q00987


 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 112/180 [00:43<00:21,  3.19it/s]

8a14__A1_A0A0D1E4Q7--8a14__C2_A0A0D1E4Q7


 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                           | 113/180 [00:43<00:21,  3.06it/s]

8oik__A1_Q9UPU9--8oik__C1_Q9UPU9


 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 114/180 [00:44<00:22,  2.94it/s]

7wrs__A1_Q5ZJ86--7wrs__B1_UNDEFINED


 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 115/180 [00:44<00:21,  2.97it/s]

8q70__A1_Q8U2C1--8q70__A2_Q8U2C1


 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 117/180 [00:45<00:18,  3.43it/s]

7vso__A1_P02945--7vso__A2_P02945
8i8y__B1_UNDEFINED--8i8y__A1_UNDEFINED


 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                      | 118/180 [00:45<00:17,  3.58it/s]

8smq__A1_Q182N1--8smq__B1_Q182N1


 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 119/180 [00:45<00:16,  3.73it/s]

7n1j__A1_P22455--7n1j__B1_UNDEFINED


 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 120/180 [00:46<00:17,  3.44it/s]

8i85__A1_D2B3F1--8i85__B1_D2B3F1


 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 121/180 [00:46<00:17,  3.29it/s]

7yuj__B1_Q9BYM8--7yuj__A1_Q9BYM8


 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 123/180 [00:46<00:13,  4.30it/s]

7zcl__B1_UNDEFINED--7zcl__A1_UNDEFINED
7skp__B1_UNDEFINED--7skp__A1_UNDEFINED


 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                               | 124/180 [00:46<00:11,  4.74it/s]

7xl7__A1_A0A2J0R8J6--7xl7__B1_A0A2J0R8J6


 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 125/180 [00:47<00:14,  3.86it/s]

7tn6__A1_Q84Y01--7tn6__A2_Q84Y01


 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 127/180 [00:47<00:15,  3.38it/s]

8vc5__A1_Q9XCL6--8vc5__B1_Q9XCL6
8ant__B1_A0A1P8CWW1--8ant__A1_A0A1P8CWW1


 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 128/180 [00:48<00:19,  2.73it/s]

7r5y__E2_R7PD89--7r5y__A1_R7PD89


 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 129/180 [00:49<00:28,  1.81it/s]

8pvm__A1_P29166--8pvm__B1_P29166


 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 130/180 [00:49<00:23,  2.12it/s]

7yo8__A1_P60520--7yo8__A2_P60520


 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 131/180 [00:50<00:21,  2.29it/s]

8gk6__A1_W6USS8--8gk6__E1_W6USS8


 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 132/180 [00:50<00:24,  2.00it/s]

7yj0__B1_UNDEFINED--7yj0__A1_UNDEFINED


 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 133/180 [00:50<00:19,  2.41it/s]

7yji__A1_UNDEFINED--7yji__A2_UNDEFINED


 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 134/180 [00:51<00:16,  2.75it/s]

8tn8__B1_A0A482N9T7--8tn8__A1_A0A482N9T7


 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 135/180 [00:51<00:16,  2.70it/s]

7spq__A1_C5AMM8--7spq__A2_C5AMM8


 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 136/180 [00:52<00:18,  2.34it/s]

7spn__A1_A0A7C2VFT1--7spn__B1_A0A7C2VFT1


 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 137/180 [00:52<00:17,  2.42it/s]

7y51__A1_Q8RBF4--7y51__A2_Q8RBF4


 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 138/180 [00:52<00:16,  2.59it/s]

7tvh__B1_Q9I2Q1--7tvh__A1_Q9I2Q1


 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 139/180 [00:53<00:13,  2.98it/s]

7tvm__A1_UNDEFINED--7tvm__B1_UNDEFINED


 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 140/180 [00:53<00:15,  2.50it/s]

8in9__A1_E0D202--8in9__B1_E0D202


 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 141/180 [00:54<00:20,  1.87it/s]

8bxl__A1_A0A075TRK9--8bxl__D1_A0A075TRK9


 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 143/180 [00:54<00:13,  2.69it/s]

7udi__B1_Q9RYE6--7udi__A1_Q9RYE6


 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 145/180 [00:55<00:10,  3.21it/s]

8iw5__A1_Q8C8U0--8iw5__B1_Q8C8U0


 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 147/180 [00:55<00:08,  3.76it/s]

8bwv__D2_A0A482M8M0--8bwv__A1_A0A482M8M0


 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 148/180 [00:56<00:08,  3.66it/s]

7t91__A1_P08151--7t91__B1_P08151


 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 149/180 [00:56<00:08,  3.50it/s]

8a82__A1_K7WEY7--8a82__B1_K7XCU4


 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 151/180 [00:56<00:06,  4.37it/s]

8ajq__A1_Q9I0C0--8ajq__B1_Q9I0C0
7px2__A1_UNDEFINED--7px2__B1_UNDEFINED


 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 152/180 [00:57<00:07,  3.64it/s]

7duc__B1_Q2G2U4--7duc__A1_Q2G2U4


 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 153/180 [00:57<00:06,  3.89it/s]

8d4w__A1_A0A8B4R830--8d4w__A2_A0A8B4R830


 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 154/180 [00:57<00:06,  3.96it/s]

8ezg__A1_P01116--8ezg__B1_UNDEFINED


 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 155/180 [00:58<00:10,  2.41it/s]

8a45__B1_B7V7R4--8a45__A1_B7V7R4


 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 156/180 [00:58<00:09,  2.52it/s]

8ih4__A1_Q8WVV5--8ih4__B1_Q8WVV5


 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 158/180 [00:59<00:06,  3.44it/s]

8twd__C1_P0AEV1--8twd__A1_W8SRD3


 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 159/180 [00:59<00:05,  3.82it/s]

8u1j__A1_Q9RYE6--8u1j__A2_Q9RYE6


 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 160/180 [00:59<00:05,  3.70it/s]

7win__B1_Q9UIF8--7win__A1_Q9UIF8


 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 162/180 [01:00<00:05,  3.32it/s]

8dye__A1_P31040--8dye__B1_Q5VUM1
7vw1__B1_V5J1S8--7vw1__A1_V5J1S8


 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 163/180 [01:00<00:05,  3.07it/s]

8ai1__B1_Q45595--8ai1__A1_Q45595


 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 164/180 [01:01<00:04,  3.41it/s]

7xn2__A1_Q8YR38--7xn2__A2_Q8YR38


 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 166/180 [01:01<00:03,  4.05it/s]

7zoo__B1_A0A979GQH9--7zoo__A1_A0A979GQH9
7y6b__A1_A0A411GZY8--7y6b__B1_A0A411H025


 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 168/180 [01:02<00:03,  3.88it/s]

7fch__A1_O95256--7fch__C2_O95256


 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 169/180 [01:02<00:02,  3.90it/s]

8q4k__A1_O51180--8q4k__B1_O51180


 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 171/180 [01:02<00:02,  4.44it/s]

8gy0__A1_A0A8H4VHP2--8gy0__B1_A0A8H4VHP2


 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 172/180 [01:02<00:01,  4.31it/s]

7x4b__A1_A0A2D0TCG3--7x4b__B1_A0A2D0TCG3


 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 173/180 [01:03<00:01,  4.02it/s]

8gyz__B1_Q93ZE2--8gyz__A1_Q93ZE2


 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 174/180 [01:03<00:02,  2.73it/s]

7wh0__A1_Q9U2E4--7wh0__B2_Q9U2E4


 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 175/180 [01:04<00:01,  3.06it/s]

8bbt__A1_A0A0B4VFQ3--8bbt__A2_A0A0B4VFQ3


 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 176/180 [01:04<00:01,  2.44it/s]

7qlr__A1_A0A1J1J928--7qlr__D2_A0A1J1J928


 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 177/180 [01:05<00:01,  2.41it/s]

8gy8__A1_Q8TZT0--8gy8__B1_Q8TZT0


 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 178/180 [01:05<00:00,  2.18it/s]

8idq__A1_A0A0B8MZ29--8idq__C1_A0A0B8MZ29


 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 179/180 [01:05<00:00,  2.58it/s]

7th0__A1_P31667--7th0__A2_P31667


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 180/180 [01:06<00:00,  2.72it/s]

8hci__B1_A0A8T8BZJ9--8hci__A1_A0A8T8BZN3





## Loading a specific list of systems


In [4]:
systems = [
    "1df0__A1_Q07009--1df0__B1_Q64537",
    "117e__A1_P00817--117e__B1_P00817",
]

loader.load_systems(systems)

passing_ids = []
for dimer in loader.dimers:
    passing_ids.append(dimer.entry.id)

systems_removed_by_filters = set(systems) - set(passing_ids)
systems_removed_by_filters

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00,  2.07it/s]


set()

In [5]:
len(systems) == len(passing_ids)

True

## Parallel loading, or chunked serial loading via generators 

In [6]:
# Load individual systems 
from pinder.core import PinderSystem

loader.load_systems(systems)
loaded = loader.load(n_cpu=1, batch_size=1)
for dimer in loaded:
    assert isinstance(dimer, PinderSystem)
    assert dimer.entry.id in systems
    
# Load in batches of systems
loader.load_systems(systems)
loaded = loader.load(n_cpu=1, batch_size=10)
for batch in loaded:
    dimer_list = list(batch)
    assert isinstance(dimer_list[0], PinderSystem)
    assert dimer_list[0].entry.id in systems




100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00,  2.08it/s]
0it [00:00, ?it/s]
  0%|                                                                                                                                                                                                                       | 0/2 [00:00<?, ?it/s][A
 50%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                       | 1/2 [00:00<00:00,  1.72it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00,  2.14it/s][A


### Optional Pinder writer

Without defining a writer for the `PinderLoader`, the loaded systems are available as `PinderSystem` objects, containing the individual monomer `Structure` object instances. 

If you want to explicitly write the (potentially transformed) structure objects to a custom location or in a custom format (e.g. PDB, pickle, etc.), you can implement a subclass of `PinderWriterBase`. 

The default writer implements writing to PDB files (leveraging the `Structure.to_pdb` method on the structure objects). 



In [7]:
from pinder.core.loader.writer import PinderDefaultWriter

from pathlib import Path
from tempfile import TemporaryDirectory



with TemporaryDirectory() as tmp_dir:
    temp_dir = Path(tmp_dir)
    loader = PinderLoader(
        writer=PinderDefaultWriter(temp_dir)
    )
    loader.load_systems(systems)
    for loaded in loader.load(n_cpu=1, batch_size=1):
        print(f"Nothing to yield, check {loader.writer.output_path}")
    for pinder_id in systems:
        system_dir = loader.writer.output_path / pinder_id
        assert system_dir.is_dir()
        assert len(list(system_dir.glob("af_*.pdb"))) > 0

 50%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                       | 1/2 [00:00<00:00,  2.36it/s]

Nothing to yield, check /var/folders/tt/x223wxwj6dzg3vjjgc_6y5bm0000gn/T/tmp7e60rg04


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00,  2.87it/s]

Nothing to yield, check /var/folders/tt/x223wxwj6dzg3vjjgc_6y5bm0000gn/T/tmp7e60rg04





## Torch geometric HeteroData object 

In [9]:
# Make sure to install torch_cluster
# !pip install torch_cluster

In [8]:
from pinder.core.loader.geodata import PairedPDB, NodeRepresentation
from torch_geometric.data import HeteroData

pinder_id = "3s9d__B1_P48551--3s9d__A1_P01563"
system = PinderSystem(pinder_id)

nodes = {NodeRepresentation("atom"), NodeRepresentation("residue")}
holo_data = PairedPDB.from_pinder_system(
    system=system,
    monomer1="holo_receptor", monomer2="holo_ligand",
    node_types=nodes,
)
assert isinstance(holo_data, HeteroData)
expected_node_types = [
    'ligand_residue', 'receptor_residue', 'ligand_atom', 'receptor_atom'
]
assert holo_data.num_nodes == 2780
assert holo_data.num_edges == 0
assert isinstance(holo_data.num_node_features, dict)
expected_num_feats = {
    'ligand_residue': 0,
    'receptor_residue': 0,
    'ligand_atom': 12,
    'receptor_atom': 12
}
for k, v in expected_num_feats.items():
    assert holo_data.num_node_features[k] == v

assert holo_data.node_types == expected_node_types


holo_data



PairedPDB(
  ligand_residue={
    residueid=[127, 1],
    pos=[127, 3],
    edge_index=[2, 1270],
    chain=[1],
  },
  receptor_residue={
    residueid=[180, 1],
    pos=[180, 3],
    edge_index=[2, 1800],
    chain=[1],
  },
  ligand_atom={
    x=[1032, 12],
    pos=[1032, 3],
    edge_index=[2, 10320],
  },
  receptor_atom={
    x=[1441, 12],
    pos=[1441, 3],
    edge_index=[2, 14410],
  }
)

In [9]:
apo_data = PairedPDB.from_pinder_system(
    system=system,
    monomer1="apo_receptor", monomer2="apo_ligand",
    node_types=nodes,
)
assert isinstance(apo_data, HeteroData)

assert apo_data.num_nodes == 3437
assert apo_data.num_edges == 0
assert isinstance(apo_data.num_node_features, dict)
expected_num_feats = {
    'ligand_residue': 0,
    'receptor_residue': 0,
    'ligand_atom': 12,
    'receptor_atom': 12
}
for k, v in expected_num_feats.items():
    assert apo_data.num_node_features[k] == v

assert apo_data.node_types == expected_node_types

apo_data

PairedPDB(
  ligand_residue={
    residueid=[165, 1],
    pos=[165, 3],
    edge_index=[2, 1650],
    chain=[1],
  },
  receptor_residue={
    residueid=[212, 1],
    pos=[212, 3],
    edge_index=[2, 2120],
    chain=[1],
  },
  ligand_atom={
    x=[1350, 12],
    pos=[1350, 3],
    edge_index=[2, 13500],
  },
  receptor_atom={
    x=[1710, 12],
    pos=[1710, 3],
    edge_index=[2, 17100],
  }
)

## Torch geometric Dataset 

In [10]:
from pinder.core.loader.dataset import PPIDataset


train_dataset = PPIDataset(
    node_types=nodes,
    split="train",
    monomer1="holo_receptor",
    monomer2="holo_ligand",
    limit_by=5,
    force_reload=True,
    parallel=False,
)
assert len(train_dataset) == 5

train_dataset



Processing...
  0%|                                                                                                                                                                                                      | 4/1560682 [00:00<33:33:51, 12.92it/s]

Finished processing, only 5 systems


Done!


PPIDataset(5)

In [11]:
from pinder.core import get_index

pindex = get_index()
raw_ids = set(train_dataset.raw_file_names)
assert len(raw_ids.intersection(set(pindex.id))) == 5
processed_ids = {f.stem for f in train_dataset.processed_file_names}
assert len(processed_ids.intersection(set(pindex.id))) == 5

data_item = train_dataset[0]
assert isinstance(data_item, HeteroData)
data_item



PairedPDB(
  ligand_residue={
    residueid=[286, 1],
    pos=[286, 3],
    edge_index=[2, 2860],
    chain=[1],
  },
  receptor_residue={
    residueid=[290, 1],
    pos=[290, 3],
    edge_index=[2, 2900],
    chain=[1],
  },
  ligand_atom={
    x=[2313, 12],
    pos=[2313, 3],
    edge_index=[2, 23130],
  },
  receptor_atom={
    x=[2344, 12],
    pos=[2344, 3],
    edge_index=[2, 23440],
  },
  pdb={
    id=[1],
    num_nodes=1,
  }
)

In [12]:
data_item = train_dataset.get_filename("8phr__X4_UNDEFINED--8phr__W4_UNDEFINED")
data_item



PairedPDB(
  ligand_residue={
    residueid=[158, 1],
    pos=[158, 3],
    edge_index=[2, 1580],
    chain=[1],
  },
  receptor_residue={
    residueid=[171, 1],
    pos=[171, 3],
    edge_index=[2, 1710],
    chain=[1],
  },
  ligand_atom={
    x=[1198, 12],
    pos=[1198, 3],
    edge_index=[2, 11980],
  },
  receptor_atom={
    x=[1358, 12],
    pos=[1358, 3],
    edge_index=[2, 13580],
  },
  pdb={
    id=[1],
    num_nodes=1,
  }
)

In [13]:
train_dataset.print_summary()


PPIDataset (#graphs=5):
+------------+----------+----------+
|            |   #nodes |   #edges |
|------------+----------+----------|
| mean       |   2612.4 |        0 |
| std        |   1631.6 |        0 |
| min        |    999   |        0 |
| quantile25 |   1600   |        0 |
| median     |   2343   |        0 |
| quantile75 |   2886   |        0 |
| max        |   5234   |        0 |
+------------+----------+----------+
Number of nodes per node type:
+------------+------------------+--------------------+---------------+-----------------+-------+
|            |   ligand_residue |   receptor_residue |   ligand_atom |   receptor_atom |   pdb |
|------------+------------------+--------------------+---------------+-----------------+-------|
| mean       |            140.2 |              152.8 |        1103.4 |          1215   |     1 |
| std        |             90.2 |               87.5 |         738.9 |           717.1 |     0 |
| min        |             58   |               62   

## Torch geometric DataLoader 

In [14]:
from pinder.core.loader.dataset import get_geo_loader
from torch_geometric.loader import DataLoader


loader = get_geo_loader(train_dataset)

assert isinstance(loader, DataLoader)
assert hasattr(loader, "dataset")
ds = loader.dataset
assert len(ds) == 5


loader

<torch_geometric.loader.dataloader.DataLoader at 0x15f2afc70>

  0%|                                                                                                                                                                                                      | 4/1560682 [00:16<33:33:51, 12.92it/s]

In [15]:
ds

PPIDataset(5)