Implements endpoint to fetch query result statistics #3220

awildturtok · 2023-11-16T08:43:39Z

No description provided.

awildturtok · 2023-11-16T08:45:34Z

Median fehlt noch

backend/src/main/java/com/bakdata/conquery/apiv1/QueryProcessor.java

thoniTUB · 2023-11-16T10:01:05Z

backend/src/main/java/com/bakdata/conquery/apiv1/QueryProcessor.java

+		final Random random = new Random();
+		final int requiredSamples = 80; // TODO config
+		final BooleanSupplier samplePicker = () -> random.nextInt(managedQuery.getLastResultCount().intValue()) < requiredSamples;


Okay dieser SamplePicker hat mich sehr verwirrt. Ich dachte erst hier werden nur 80 Samples für die Statistik ausgewertet, aber er wird zum Sammeln der Beispielwerte genutzt.

Bitte doku.

Ich verstehe noch nicht warum du hier Random nimmst. Dadurch variiert die Menge an Samples doch von der Ergebnismenge:

viele Ergebnisse -> wenig Samples

wenig Ergebnisse -> viele Samples

Möchte man nicht lieber eine konstante/upper Bound an Samples haben, anstatt eines inversen Verhältnisses

Es sollten immer ungefähr 80 random samples sein

Stimmt, du hast recht bei der Anzahl.

ich kann das etwas ausführlicher schreiben als Kommentar, aber ich hab davor ungefähr 20min auf den Bildschirm gestarrt, irgendwie wahrscheinlichkeiten auszurechnen, bis ich gemerkt habe, dass ich das so ziemlich transparent hinkriege ohne viel hirnschmalz.

Kannst du nicht von vornherein bestimmen, welche Samples gewählt werde sollen, z.B:

final int[] sampleIndexes = random.ints(0, managedQuery.getLastResultCount().intValue()).limit(requiredSamples).toArray();

dann muss ich aber den Zustand im collector tracken, das ist unschön, dazu wären die samples dann nicht mehr unabhängig je collector.

DateColumnStatsCollector zählst du schon mit wieviele Werte schon gezählt wurden, das könntest du für den NumberColumnStatsCollector doch auch machen.

Was ist der Vorteil, wenn die Samples unabhängig sind? Dann würden, abgesehen von null Werten, überall gleich viele Werte existieren. Das ist doch praktisch wenn man so ein oberes Limit verbindlich festlegen kann.

Ich sehe immer noch nicht den Vorteil, ich würde es erstmal so lassen, das ist eine relativ überschaubare Implementierung.

Ja lass es so ich sehe nur gerade diese Nachteile:

Zufallsvariable beeinflusst gleichzeitig welche Zeilen gesampled werden und wieviele.

Anzahl der Samples ist theoretisch nur an die Menge Zeilen gebunden

Anzahl der Samples kann von Spalte zu Spalte variiren, was bei der Darstellung im Frontend vielleicht komisch aussieht

Anzahl der Samples kann von Spalte zu Spalte variiren, was bei der Darstellung im Frontend vielleicht komisch aussieht

das ist kein problem, die samples werden nur zur visualisierung einr kurve verwendet. Die alternative wäre die kurve serverseitig zu rendern

backend/src/main/java/com/bakdata/conquery/apiv1/query/statistics/ColumnStatsCollector.java

backend/src/main/java/com/bakdata/conquery/models/config/ColumnConfig.java

backend/src/main/java/com/bakdata/conquery/models/types/ResultType.java

backend/src/main/java/com/bakdata/conquery/resources/api/QueryResource.java

…n one package

thoniTUB

Ein paar kleine Sachen

thoniTUB · 2023-11-23T07:30:41Z

backend/src/main/java/com/bakdata/conquery/apiv1/QueryProcessor.java

+		final IntSet entities = new IntOpenHashSet();
+		final AtomicInteger lines = new AtomicInteger();
+
+		final AtomicReference<CDateRange> span = new AtomicReference<>(null);


Kannst du hier ein direkt ein final CDateSet nehmen?

die DateSet aggregation dürfte deutlich langsamer sein, als nur so zu spannen? Oder was siehst du für einen Vorteil darin?

Ah ich hattes es eher auf die AtomicReference abgesehen, denn solange der Stream nicht parallel ist reicht es doch für die closure, dass das Object CDateSet/CDateRange final ist

ja, das stimmt, aber CDateRange ist ja immutable, deswegen muss ich das tatsächlich in einer AtomicRef austauschen.

backend/src/main/java/com/bakdata/conquery/apiv1/query/statistics/ColumnStatsCollector.java

thoniTUB · 2023-11-23T07:46:33Z

backend/src/main/java/com/bakdata/conquery/apiv1/query/statistics/ListColumnStatsCollector.java

+@Getter
+public class ListColumnStatsCollector<T> extends ColumnStatsCollector<Collection<T>>{
+
+	private final ColumnStatsCollector<T> underlying;


Sammelt der underlying nicht potentiell zu viele Samples?

Sammelt der underlying nicht potentiell zu viele Samples?

argh, du hast recht, sogar ordentlich zu viele. Das dürfte kein riesen problem sein, muss ich mir aber anschauen. Danke!

backend/src/main/java/com/bakdata/conquery/models/config/FrontendConfig.java

backend/src/main/java/com/bakdata/conquery/apiv1/query/statistics/ColumnStatsCollector.java

backend/src/main/java/com/bakdata/conquery/resources/api/QueryResource.java

backend/src/test/resources/tests/endpoints/apiEndpointInfo.json

…ics/ColumnStatsCollector.java Co-authored-by: MT <12283268+thoniTUB@users.noreply.github.com>

# Conflicts: # backend/src/main/java/com/bakdata/conquery/models/types/ResultType.java

awildturtok · 2023-12-07T11:32:02Z

@thoniTUB ich werde die Openapi nachliefern. Damit die biz schonmal weiter testen kann merge ich den stand so.

awildturtok added 11 commits November 7, 2023 17:26

first draft implementing result statistics

b4affba

Cleanup package of statistics

f2238ce

rudimentary implementation Date stats

63d1adf

implements span for dates

6780f98

adds initial endpoint

bb050fb

provides PrintSettings

f799408

avoids cast

b22c4a9

fix not checking for null in stream

daf74df

work towards handling of dateRange and listTypes

e4ef388

fix compilation by changing name of AdminDatasetProcessor.java

c5d66bc

change route name to /statistics

b6c8421

awildturtok requested a review from thoniTUB November 16, 2023 08:43

thoniTUB requested changes Nov 16, 2023

View reviewed changes

awildturtok added 9 commits November 16, 2023 15:34

Cleanup and impl of Boolean StatsCollector

a93bafe

use Descriptive statistics as they implement all desired statistics i…

19eabdd

…n one package

sorts samples

d3b804f

properly handle error state

4a3a806

use config for viz-samples

88660d2

adds missing apiEndpointInfo entry

606f543

implements tests for QueryStatistics

e43d7b7

fixes linebreak

5024ba4

cleanup

07c4d09

awildturtok requested a review from thoniTUB November 22, 2023 14:53

thoniTUB approved these changes Nov 23, 2023

View reviewed changes

Update backend/src/main/java/com/bakdata/conquery/apiv1/query/statist…

8df137e

…ics/ColumnStatsCollector.java Co-authored-by: MT <12283268+thoniTUB@users.noreply.github.com>

awildturtok marked this pull request as ready for review November 23, 2023 14:05

awildturtok added 3 commits November 23, 2023 15:11

fixes AdminDatasetProcessor name

4900024

cleanup

902b8b7

Merge branch 'develop' into feature/query-statistics

262fe45

# Conflicts: # backend/src/main/java/com/bakdata/conquery/models/types/ResultType.java

awildturtok added 4 commits November 23, 2023 17:51

use recursive comparator to appease the jvm gods

5549e84

filter extremes

e3ce565

fixes labels and names

ba3f563

fix error when empty

7681291

awildturtok requested a review from thoniTUB November 28, 2023 13:55

Merge branch 'develop' into feature/query-statistics

8b40b28

awildturtok enabled auto-merge December 7, 2023 11:32

Merge branch 'develop' into feature/query-statistics

0679c3e

awildturtok merged commit f937c3d into develop Dec 7, 2023
6 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Implements endpoint to fetch query result statistics #3220

Implements endpoint to fetch query result statistics #3220

awildturtok commented Nov 16, 2023

awildturtok commented Nov 16, 2023

thoniTUB Nov 16, 2023

awildturtok Nov 16, 2023

thoniTUB Nov 16, 2023

awildturtok Nov 16, 2023

thoniTUB Nov 16, 2023

awildturtok Nov 16, 2023

thoniTUB Nov 16, 2023

awildturtok Nov 16, 2023

thoniTUB Nov 16, 2023

awildturtok Nov 16, 2023

thoniTUB left a comment

thoniTUB Nov 23, 2023

awildturtok Nov 23, 2023

thoniTUB Nov 23, 2023

awildturtok Nov 23, 2023

thoniTUB Nov 23, 2023

awildturtok Nov 23, 2023

awildturtok commented Dec 7, 2023

Implements endpoint to fetch query result statistics #3220

Implements endpoint to fetch query result statistics #3220

Conversation

awildturtok commented Nov 16, 2023

awildturtok commented Nov 16, 2023

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

thoniTUB left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

awildturtok commented Dec 7, 2023