spiders: add elsevier spider #285

MJedr · 2020-09-18T14:36:47Z

Ref: inspirehep/inspirehep#1212

docker-compose.test.py2.yml

hepcrawl/parsers/elsevier.py

hepcrawl/spiders/elsevier.py

michamos

not finished yet, will continue tomorrow, but here are already some comments

hepcrawl/spiders/elsevier_spider.py

hepcrawl/spiders/elsevier.py

michamos · 2020-09-25T16:03:35Z

hepcrawl/spiders/elsevier.py

+    def parse_record(self, record):
+        """Parse an elsevier XML exported file into a HEP record."""
+        with open(record, "r") as f:
+            elsevier_record = f.read()
+
+        parser = ElsevierParser(elsevier_record)
+        return ParsedItem(record=parser.parse(), record_format="hep")


Is this one used?

What we would need is a way to reharvest a given record, but we need to be able to provide it as an input to scrapy somehow. I think you can leave it out of the current PR, as it's already taken a lot of time and it's not super-urgent, and create an issue for this so we don't forget it.

hepcrawl/spiders/elsevier.py

michamos

some minor comments remaining, but looks very good, great job! 👍

hepcrawl/spiders/elsevier_spider.py

Ref: inspirehep/inspirehep#1212

MJedr force-pushed the elsevierspider branch 4 times, most recently from 549ec82 to 6887d9f Compare September 21, 2020 07:29

pazembrz reviewed Sep 21, 2020

View reviewed changes

docker-compose.test.py2.yml Outdated Show resolved Hide resolved

MJedr force-pushed the elsevierspider branch 6 times, most recently from 7e1bfb3 to d54acc7 Compare September 21, 2020 09:52

michamos reviewed Sep 21, 2020

View reviewed changes

hepcrawl/parsers/elsevier.py Show resolved Hide resolved

hepcrawl/spiders/elsevier.py Outdated Show resolved Hide resolved

MJedr force-pushed the elsevierspider branch from d54acc7 to 39fe794 Compare September 22, 2020 15:09

michamos reviewed Sep 22, 2020

View reviewed changes

hepcrawl/spiders/elsevier.py Outdated Show resolved Hide resolved

MJedr force-pushed the elsevierspider branch 3 times, most recently from 465fa6d to 1d93ef0 Compare September 24, 2020 15:46

michamos reviewed Sep 24, 2020

View reviewed changes

MJedr force-pushed the elsevierspider branch 5 times, most recently from 4b02edd to f2b0fca Compare September 25, 2020 15:29

michamos reviewed Sep 25, 2020

View reviewed changes

hepcrawl/spiders/elsevier.py Outdated Show resolved Hide resolved

MJedr force-pushed the elsevierspider branch from f2b0fca to 70ed16a Compare September 25, 2020 17:11

MJedr force-pushed the elsevierspider branch 2 times, most recently from 92ecb01 to c3c1f3a Compare October 5, 2020 14:12

michamos approved these changes Oct 5, 2020

View reviewed changes

hepcrawl/spiders/elsevier_spider.py Outdated Show resolved Hide resolved

hepcrawl/spiders/elsevier_spider.py Outdated Show resolved Hide resolved

hepcrawl/spiders/elsevier_spider.py Outdated Show resolved Hide resolved

spiders: add elsevier spider

c9f852e

Ref: inspirehep/inspirehep#1212

MJedr force-pushed the elsevierspider branch from c3c1f3a to c9f852e Compare October 6, 2020 07:19

MJedr merged commit 4c733fd into inspirehep:master Oct 6, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

spiders: add elsevier spider #285

spiders: add elsevier spider #285

MJedr commented Sep 18, 2020

michamos left a comment

michamos Sep 25, 2020

michamos left a comment

spiders: add elsevier spider #285

spiders: add elsevier spider #285

Conversation

MJedr commented Sep 18, 2020

michamos left a comment

Choose a reason for hiding this comment

michamos Sep 25, 2020

Choose a reason for hiding this comment

michamos left a comment

Choose a reason for hiding this comment