recrawlableResolver does not work as expected #741

jetnet · 2021-03-18T20:30:18Z

hello Pascal,

some pages still being crawled despite recrawlableResolver policy, e.g.:

<recrawlableResolver class="com.norconex.collector.http.recrawl.impl.GenericRecrawlableResolver" sitemapSupport="last" >
                <minFrequency applyTo="reference" value="1d">.*</minFrequency>
</recrawlableResolver>

start 1st crawl and check an URL

$ grep //schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/ latest/logs/schule.fragfinn.de.log
schule.fragfinn.de: 2021-03-18 21:16:36 INFO - DOCUMENT_METADATA_FETCHED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-18 21:16:36 INFO -          DOCUMENT_FETCHED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-18 21:16:36 INFO -       CREATED_ROBOTS_META: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-18 21:16:36 INFO -            URLS_EXTRACTED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-18 21:16:37 INFO -         DOCUMENT_IMPORTED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-18 21:16:37 INFO -    DOCUMENT_COMMITTED_ADD: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/

start 2nd crawl right after and check the same URL

$ grep //schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/ latest/logs/schule.fragfinn.de.log
schule.fragfinn.de: 2021-03-18 21:17:09 INFO -        REJECTED_PREMATURE: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-18 21:17:09 INFO - DOCUMENT_METADATA_FETCHED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-18 21:17:10 INFO -          DOCUMENT_FETCHED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-18 21:17:10 INFO -       CREATED_ROBOTS_META: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-18 21:17:10 INFO -            URLS_EXTRACTED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-18 21:17:14 INFO -         DOCUMENT_IMPORTED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-18 21:17:14 INFO -    DOCUMENT_COMMITTED_ADD: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/

it rejected, but fetched and committed this URL.
Expected behaviour: do not process it after REJECTED_PREMATURE

Please let me know, if you need the whole config.
Thanks a lot!

The text was updated successfully, but these errors were encountered:

jetnet · 2021-03-19T09:51:22Z

I found the configuration part, which causes the issue. It's TikaLinkExtractor in the following snippet:

<linkExtractors>
        <!-- Tika link extractor fetches "alt" data from images -->
        <extractor class="com.norconex.collector.http.url.impl.TikaLinkExtractor" ignoreNofollow="false"/>
        <!-- GenericLinkExtractor used to extract links from the following tags -->
        <extractor class="com.norconex.collector.http.url.impl.GenericLinkExtractor">
              <tags>
                  <tag name="frame" attribute="src" />
                  <tag name="iframe" attribute="src" />
                  <tag name="meta" attribute="http-equiv" />
                  <tag name="script" attribute="src" />
              </tags>
        </extractor>
</linkExtractors>

Could you please take a look? Thanks!

essiembre · 2021-03-22T06:01:07Z

Odd, technically, the link extraction should not occur on a premature document. Can you please share a complete configuration that reproduces the issue?

jetnet · 2021-03-22T10:21:51Z

here we go: https://0x0.st/-q8z.xml

essiembre · 2021-03-23T03:40:56Z

Thanks for sharing your file. I was able to reproduce the issue with it. It was tied to pages containing links to self. Such links were added as a child link to process even if the "parent" (i.e., itself) was identified as premature. I just made a new 2.x snapshot release with a fix for it. Please confirm.

jetnet · 2021-03-23T08:56:39Z

Thank you very much for the quick fix! Really appreciate that!

I just tested and noticed a new issue with the sitemap:

before (not sure what snapshot it is - 403017 Jun 7 2020 lib/norconex-collector-http-2.9.1-SNAPSHOT.jar):

schule.fragfinn.de: 2021-03-22 11:09:43 ERROR - Could not obtain sitemap: https://www.fragfinn.de/sitemap.xml.  Expected status code 200, but got 301
schule.fragfinn.de: 2021-03-22 11:09:43 ERROR - Could not obtain sitemap: https://schule.fragfinn.de/sitemap.xml.  Expected status code 200, but got 301
schule.fragfinn.de: 2021-03-22 11:09:43 INFO - Resolving sitemap: https://schule.fragfinn.de/sitemap_index.xml
schule.fragfinn.de: 2021-03-22 11:09:43 INFO - Resolving sitemap: https://schule.fragfinn.de/page-sitemap.xml

latest snapshot:

schule.fragfinn.de: 2021-03-23 09:47:37 ERROR - Could not obtain sitemap: https://www.fragfinn.de/sitemap.xml.  Expected status code 200, but got 301
schule.fragfinn.de: 2021-03-23 09:47:37 ERROR - Could not obtain sitemap: https://schule.fragfinn.de/sitemap.xml.  Expected status code 200, but got 301
schule.fragfinn.de: 2021-03-23 09:47:37 INFO - Resolving sitemap: https://schule.fragfinn.de/sitemap_index.xml
schule.fragfinn.de: 2021-03-23 09:47:37 ERROR - Cannot fetch sitemap: https://schule.fragfinn.de/sitemap_index.xml (java.lang.NullPointerException)

Looks like the latest snapshot cannot fetch the sitemap. Could you please take a look? Thanks a lot!

update:

I just realized, that there is a similar issue #738

essiembre · 2021-03-29T20:29:07Z

Since the sitemap issue is tracked in #738, I will close this one.

I am assuming the "premature" issues are fixed? If not feel free to reopen or create a new ticket.

jetnet · 2021-03-31T08:00:30Z

I just tested the lasted snapshot

-rw-r--r-- 1 crawler crawler 199934 Mar 29 22:32 norconex-collector-core-1.10.1-SNAPSHOT.jar
-rw-r--r-- 1 crawler crawler 407983 Mar 29 22:35 norconex-collector-http-2.9.1-SNAPSHOT.jar

As you can see from the following, the page gets crawled twice when the crawlstore is not there and one PREMATURE and one ADD at every sub-sequent crawl:

$ tail -F latest/logs/schule.fragfinn.de.log | grep //schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/

tail: 'latest/logs/schule.fragfinn.de.log' has become inaccessible: No such file or directory
tail: 'latest/logs/schule.fragfinn.de.log' has appeared;  following new file
schule.fragfinn.de: 2021-03-31 09:47:25 INFO - schule.fragfinn.de:          DOCUMENT_FETCHED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-31 09:47:25 INFO - schule.fragfinn.de:       CREATED_ROBOTS_META: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-31 09:47:25 INFO - schule.fragfinn.de:            URLS_EXTRACTED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-31 09:47:25 INFO - schule.fragfinn.de:         DOCUMENT_IMPORTED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-31 09:47:25 INFO - schule.fragfinn.de:    DOCUMENT_COMMITTED_ADD: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-31 09:47:25 INFO - schule.fragfinn.de:          DOCUMENT_FETCHED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-31 09:47:25 INFO - schule.fragfinn.de:       CREATED_ROBOTS_META: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-31 09:47:25 INFO - schule.fragfinn.de:            URLS_EXTRACTED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-31 09:47:25 INFO - schule.fragfinn.de:         DOCUMENT_IMPORTED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-31 09:47:25 INFO - schule.fragfinn.de:    DOCUMENT_COMMITTED_ADD: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/

tail: 'latest/logs/schule.fragfinn.de.log' has become inaccessible: No such file or directory
tail: 'latest/logs/schule.fragfinn.de.log' has appeared;  following new file
schule.fragfinn.de: 2021-03-31 09:47:47 INFO - schule.fragfinn.de:        REJECTED_PREMATURE: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-31 09:47:50 INFO - schule.fragfinn.de:          DOCUMENT_FETCHED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-31 09:47:50 INFO - schule.fragfinn.de:       CREATED_ROBOTS_META: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-31 09:47:50 INFO - schule.fragfinn.de:            URLS_EXTRACTED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-31 09:47:50 INFO - schule.fragfinn.de:         DOCUMENT_IMPORTED: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/
schule.fragfinn.de: 2021-03-31 09:47:50 INFO - schule.fragfinn.de:    DOCUMENT_COMMITTED_ADD: https://schule.fragfinn.de/macht-mit-finns-freundin-braucht-einen-namen/

Could you please re-open this thicket? It seems, I have no permission for that.
Thanks a lot!

processed normally (not through a redirect). #741

essiembre · 2021-04-06T04:36:05Z

I just made a new snapshot with a fix. I could not reproduce the issue with it. Please confirm.

jetnet · 2021-04-06T05:47:51Z

yes, the snapshot norconex-collector-http-2.9.1-20210406.043458-18.zip works as expected!
Thanks you very much!

essiembre added a commit that referenced this issue Mar 23, 2021

Fixed RecrawlableResolver settings not always being respected. #741

2ce2af3

essiembre added bug resolved labels Mar 23, 2021

essiembre closed this as completed Mar 29, 2021

This was referenced Apr 1, 2021

Cannot extract nested sitemap from sitemap.xml #738

Closed

recrawlableResolver - minimal frequency stopped working #745

Closed

essiembre reopened this Apr 6, 2021

essiembre added a commit that referenced this issue Apr 6, 2021

Fixed redirect targets sometimes being processed again when already

01cbced

processed normally (not through a redirect). #741

essiembre closed this as completed Apr 6, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

recrawlableResolver does not work as expected #741

recrawlableResolver does not work as expected #741

jetnet commented Mar 18, 2021

jetnet commented Mar 19, 2021

essiembre commented Mar 22, 2021

jetnet commented Mar 22, 2021

essiembre commented Mar 23, 2021

jetnet commented Mar 23, 2021 •

edited

essiembre commented Mar 29, 2021

jetnet commented Mar 31, 2021 •

edited

essiembre commented Apr 6, 2021

jetnet commented Apr 6, 2021

recrawlableResolver does not work as expected #741

recrawlableResolver does not work as expected #741

Comments

jetnet commented Mar 18, 2021

jetnet commented Mar 19, 2021

essiembre commented Mar 22, 2021

jetnet commented Mar 22, 2021

essiembre commented Mar 23, 2021

jetnet commented Mar 23, 2021 • edited

essiembre commented Mar 29, 2021

jetnet commented Mar 31, 2021 • edited

essiembre commented Apr 6, 2021

jetnet commented Apr 6, 2021

jetnet commented Mar 23, 2021 •

edited

jetnet commented Mar 31, 2021 •

edited