Cost-based choice between nested loop join and hash join #7331

dyemanov · 2022-10-06T11:26:23Z

Currently, only a nested loop join is used when streams have indexed relationships. But often this is sub-optimal and causes the dependent streams to be fetched more times than actually necessary. Hash join could be a better choice in these cases. Of course, cast-based approach should be used when choosing between the possible join algorithms.

Just an example from the TPC-R test suite:

select first 10
  l_orderkey, o_orderdate, o_shippriority,
  sum(l_extendedprice * (1 - l_discount)) as revenue,
from
  customer, orders, lineitem
where
  c_mktsegment = 'BUILDING'
  and c_custkey = o_custkey
  and l_orderkey = o_orderkey
  and o_orderdate < date '1995-03-15'
  and l_shipdate > date '1995-03-15'
group by
  l_orderkey, o_orderdate, o_shippriority
order by
  2 desc, o_orderdate;

PLAN SORT (
  SORT (
    JOIN (
      CUSTOMER NATURAL,
      ORDERS INDEX (ORDERS_CUSTKEY),
      LINEITEM INDEX (LINEITEM_PK))))

Elapsed time = 1.600 sec

vs

PLAN SORT (
  SORT (
    JOIN (
      HASH (
        ORDERS INDEX (ORDERS_ORDERDATE),
        CUSTOMER NATURAL),
      LINEITEM INDEX (LINEITEM_PK))))

Elapsed time = 1.031 sec

…h join

dyemanov added priority: major component: engine type: improvement labels Oct 6, 2022

dyemanov self-assigned this Oct 6, 2022

dyemanov added a commit that referenced this issue Oct 6, 2022

Implemented #7331: Cost-based choice between nested loop join and has…

99c9f63

…h join

dyemanov added the fix-version: 5.0 Beta 1 label Oct 6, 2022

dyemanov closed this as completed Oct 6, 2022

pavel-zotov added qa: not enough information qa: deferred qa: done successfully and removed qa: not enough information qa: deferred labels Feb 17, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Cost-based choice between nested loop join and hash join #7331

Cost-based choice between nested loop join and hash join #7331

dyemanov commented Oct 6, 2022

Cost-based choice between nested loop join and hash join #7331

Cost-based choice between nested loop join and hash join #7331

Comments

dyemanov commented Oct 6, 2022