💾💽 Change serialization format #785

mberr · 2022-02-15T15:59:53Z

This PR changes the serialization format of the triples factory to store the key components, triples (and label to ID mappings), in a compressed, but human-readable format. This allows easy inspection outside of PyKEEN.

For FB15k237, I saw that the total file size was also significantly reduced (from 6.9MiB on ef769a8 = master to 1.1MiB for bf47eb5)

Based upon #655 (comment)

trigger ci

cthoyt · 2022-02-15T18:10:55Z

@mberr is this covered by unit tests? Have you checked it's working on a variety of datasets?

src/pykeen/triples/triples_factory.py

tests/test_triples_factory.py

mberr · 2022-02-15T18:47:23Z

@mberr is this covered by unit tests? Have you checked it's working on a variety of datasets?

pykeen/tests/test_triples_factory.py

Line 501 in 4084a1a

class TestUtils(unittest.TestCase):

comprises the serialization tests.

So far I only tested this for FB15k237, but I can try a few other tomorrow.

trigger ci

mberr · 2022-02-16T08:25:35Z

@mberr is this covered by unit tests? Have you checked it's working on a variety of datasets?

pykeen/tests/test_triples_factory.py

Line 501 in 4084a1a

class TestUtils(unittest.TestCase):

comprises the serialization tests.

So far I only tested this for FB15k237, but I can try a few other tomorrow.

The ten smallest datasets work all.

from docdata import get_docdata
from pykeen.datasets import dataset_resolver, get_dataset
from pykeen.triples.triples_factory import TriplesFactory


def _triples(d: str) -> int:
    return get_docdata(dataset_resolver.lookup_dict[d])["statistics"]["triples"]


dataset_list = sorted(dataset_resolver.lookup_dict, key=_triples)
for name in dataset_list[:10]:
    print(name)
    dataset = get_dataset(dataset=name)
    path = f"/tmp/{name}-temp"
    dataset.training.to_path_binary(path=path)
    TriplesFactory.from_path_binary(path=path)

mberr added 4 commits February 15, 2022 16:49

update serialization format

c8b21c9

fix saving dataframe

ee02322

update tests

bf47eb5

trigger ci

use labels as column headers

4084a1a

trigger ci

mberr requested a review from cthoyt February 15, 2022 16:06

cthoyt reviewed Feb 15, 2022

View reviewed changes

src/pykeen/triples/triples_factory.py Outdated Show resolved Hide resolved

cthoyt reviewed Feb 15, 2022

View reviewed changes

src/pykeen/triples/triples_factory.py Outdated Show resolved Hide resolved

cthoyt reviewed Feb 15, 2022

View reviewed changes

src/pykeen/triples/triples_factory.py Outdated Show resolved Hide resolved

cthoyt reviewed Feb 15, 2022

View reviewed changes

tests/test_triples_factory.py Outdated Show resolved Hide resolved

mberr added 4 commits February 15, 2022 19:48

make data type explicit

d86e301

trigger ci

introduce class variables

0292ce6

introduce more class vars

9e99ca7

trigger ci

remove outdated checks

e9686a2

trigger ci

trigger ci

cb9f817

mberr added this to the PyKEEN v1.8.0 milestone Feb 16, 2022

mberr changed the title ~~Change serialization format~~ 💾💽 Change serialization format Feb 16, 2022

mberr requested a review from cthoyt February 16, 2022 08:47

mberr mentioned this pull request Feb 16, 2022

🧰 📥 Cache dataset loading #569

Merged

5 tasks

cthoyt approved these changes Feb 16, 2022

View reviewed changes

mberr merged commit e82057b into master Feb 16, 2022

mberr deleted the change-serialization-format branch February 16, 2022 10:13

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

💾💽 Change serialization format #785

💾💽 Change serialization format #785

mberr commented Feb 15, 2022 •

edited

cthoyt commented Feb 15, 2022

mberr commented Feb 15, 2022

mberr commented Feb 16, 2022

💾💽 Change serialization format #785

💾💽 Change serialization format #785

Conversation

mberr commented Feb 15, 2022 • edited

cthoyt commented Feb 15, 2022

mberr commented Feb 15, 2022

mberr commented Feb 16, 2022

mberr commented Feb 15, 2022 •

edited