pganalyze · seanlinsley · Nov 30, 2022 · Dec 9, 2022 · Dec 9, 2022 · Dec 9, 2022
diff --git a/input/postgres/backends.go b/input/postgres/backends.go
@@ -10,10 +10,11 @@ import (
 	"github.com/pganalyze/collector/util"
 )
 
-const activitySQLDefaultOptionalFields = "waiting, NULL, NULL, NULL, NULL, NULL"
-const activitySQLpg94OptionalFields = "waiting, backend_xid, backend_xmin, NULL, NULL, NULL"
-const activitySQLpg96OptionalFields = `COALESCE(wait_event_type, '') = 'Lock' as waiting, backend_xid, backend_xmin, wait_event_type, wait_event, NULL`
-const activitySQLpg10OptionalFields = `COALESCE(wait_event_type, '') = 'Lock' as waiting, backend_xid, backend_xmin, wait_event_type, wait_event, backend_type`
+const activitySQLDefaultOptionalFields = "waiting, NULL, NULL, NULL, NULL, NULL, NULL"
+const activitySQLpg94OptionalFields = "waiting, backend_xid, backend_xmin, NULL, NULL, NULL, NULL"
+const activitySQLpg96OptionalFields = `COALESCE(wait_event_type, '') = 'Lock' as waiting, backend_xid, backend_xmin, wait_event_type, wait_event, NULL, NULL`
+const activitySQLpg10OptionalFields = `COALESCE(wait_event_type, '') = 'Lock' as waiting, backend_xid, backend_xmin, wait_event_type, wait_event, backend_type, NULL`
+const activitySQLpg14OptionalFields = `COALESCE(wait_event_type, '') = 'Lock' as waiting, backend_xid, backend_xmin, wait_event_type, wait_event, backend_type, query_id`
 
 const pgBlockingPidsField = `
 CASE
@@ -33,7 +34,9 @@ func GetBackends(logger *util.Logger, db *sql.DB, postgresVersion state.Postgres
 	var blockingPidsField string
 	var sourceTable string
 
-	if postgresVersion.Numeric >= state.PostgresVersion10 {
+	if postgresVersion.Numeric >= state.PostgresVersion14 {
+		optionalFields = activitySQLpg14OptionalFields
+	} else if postgresVersion.Numeric >= state.PostgresVersion10 {
 		optionalFields = activitySQLpg10OptionalFields
 	} else if postgresVersion.Numeric >= state.PostgresVersion96 {
 		optionalFields = activitySQLpg96OptionalFields
@@ -78,7 +81,7 @@ func GetBackends(logger *util.Logger, db *sql.DB, postgresVersion state.Postgres
 			&row.ClientPort, &row.BackendStart, &row.XactStart, &row.QueryStart,
 			&row.StateChange, &row.Waiting, &row.BackendXid, &row.BackendXmin,
 			&row.WaitEventType, &row.WaitEvent, &row.BackendType, pq.Array(&row.BlockedByPids),
-			&row.State, &row.Query)
+			&row.QueryID, &row.State, &row.Query)
 		if err != nil {
 			return nil, err
 		}

diff --git a/input/postgres/statements.go b/input/postgres/statements.go
@@ -6,6 +6,7 @@ import (
 	"fmt"
 	"hash/fnv"
 	"strings"
+	"time"
 
 	"github.com/guregu/null"
 	"github.com/lib/pq"
@@ -234,6 +235,20 @@ func GetStatements(server *state.Server, logger *util.Logger, db *sql.DB, global
 		if showtext {
 			statementTexts[key] = receivedQuery.String
 		}
+		if queryID.Valid && showtext {
+			if server.PrevState.QueryIdentities == nil {
+				server.PrevState.QueryIdentities = make(state.QueryIdentityMap)
+			}
+			if identity, ok := server.PrevState.QueryIdentities[queryID.Int64]; ok {
+				identity.LastSeen = time.Now()
+			} else {
+				server.PrevState.QueryIdentities[queryID.Int64] = state.QueryIdentity{
+					QueryID:     queryID.Int64,
+					Fingerprint: util.FingerprintQuery(receivedQuery.String, server.Config.FilterQueryText, -1),
+					LastSeen:    time.Now(),
+				}
+			}
+		}
 		if ignoreIOTiming(postgresVersion, receivedQuery) {
 			stats.BlkReadTime = 0
 			stats.BlkWriteTime = 0

diff --git a/output/transform/activity.go b/output/transform/activity.go
@@ -34,6 +34,7 @@ func ActivityStateToCompactActivitySnapshot(server *state.Server, activityState
 				r.QueryInformations,
 				b.RoleIdx,
 				b.DatabaseIdx,
+				backend.QueryID,
 				backend.Query.String,
 				activityState.TrackActivityQuerySize,
 			)

diff --git a/output/transform/logs.go b/output/transform/logs.go
@@ -5,6 +5,7 @@ import (
 	"fmt"
 
 	"github.com/golang/protobuf/ptypes"
+	"github.com/guregu/null"
 	snapshot "github.com/pganalyze/collector/output/pganalyze_collector"
 	"github.com/pganalyze/collector/state"
 	uuid "github.com/satori/go.uuid"
@@ -45,6 +46,7 @@ func transformPostgresQuerySamples(server *state.Server, s snapshot.CompactLogSn
 			r.QueryInformations,
 			roleIdx,
 			databaseIdx,
+			null.NewInt(0, false),
 			sampleIn.Query,
 			-1,
 		)
@@ -182,6 +184,7 @@ func transformSystemLogLine(server *state.Server, r *snapshot.CompactSnapshot_Ba
 			r.QueryInformations,
 			logLine.RoleIdx,
 			logLine.DatabaseIdx,
+			null.NewInt(0, false),
 			logLineIn.Query,
 			-1,
 		)

diff --git a/output/transform/postgres_statements.go b/output/transform/postgres_statements.go
@@ -9,13 +9,17 @@ import (
 	"github.com/pganalyze/collector/util"
 )
 
-func groupStatements(statements state.PostgresStatementMap, statsMap state.DiffedPostgresStatementStatsMap) map[statementKey]statementValue {
+func groupStatements(statements state.PostgresStatementMap, statsMap state.DiffedPostgresStatementStatsMap, queryIdentities state.QueryIdentityMap) map[statementKey]statementValue {
 	groupedStatements := make(map[statementKey]statementValue)
 
 	for sKey, stats := range statsMap {
 		statement, exist := statements[sKey]
 		if !exist {
-			statement = state.PostgresStatement{QueryTextUnavailable: true, Fingerprint: util.FingerprintText(util.QueryTextUnavailable)}
+			if identity, ok := queryIdentities[sKey.QueryID]; ok {
+				statement = state.PostgresStatement{QueryTextUnavailable: false, Fingerprint: identity.Fingerprint}
+			} else {
+				statement = state.PostgresStatement{QueryTextUnavailable: true, Fingerprint: util.FingerprintText(util.QueryTextUnavailable)}
+			}
 		}
 
 		key := statementKey{
@@ -67,7 +71,7 @@ func transformQueryStatistic(stats state.DiffedPostgresStatementStats, idx int32
 
 func transformPostgresStatements(s snapshot.FullSnapshot, newState state.PersistedState, diffState state.DiffState, transientState state.TransientState, roleOidToIdx OidToIdx, databaseOidToIdx OidToIdx) snapshot.FullSnapshot {
 	// Statement stats from this snapshot
-	groupedStatements := groupStatements(transientState.Statements, diffState.StatementStats)
+	groupedStatements := groupStatements(transientState.Statements, diffState.StatementStats, newState.QueryIdentities)
 	for key, value := range groupedStatements {
 		idx := upsertQueryReferenceAndInformation(&s, transientState.StatementTexts, roleOidToIdx, databaseOidToIdx, key, value)
 
@@ -87,7 +91,7 @@ func transformPostgresStatements(s snapshot.FullSnapshot, newState state.Persist
 		h.CollectedAt, _ = ptypes.TimestampProto(timeKey.CollectedAt)
 		h.CollectedIntervalSecs = timeKey.CollectedIntervalSecs
 
-		groupedStatements = groupStatements(transientState.Statements, diffedStats)
+		groupedStatements = groupStatements(transientState.Statements, diffedStats, newState.QueryIdentities)
 		for key, value := range groupedStatements {
 			idx := upsertQueryReferenceAndInformation(&s, transientState.StatementTexts, roleOidToIdx, databaseOidToIdx, key, value)
 			statistic := transformQueryStatistic(value.statementStats, idx)

diff --git a/output/transform/util.go b/output/transform/util.go
@@ -4,6 +4,7 @@ import (
 	"bytes"
 	"encoding/binary"
 
+	"github.com/guregu/null"
 	snapshot "github.com/pganalyze/collector/output/pganalyze_collector"
 	"github.com/pganalyze/collector/state"
 	"github.com/pganalyze/collector/util"
@@ -61,8 +62,16 @@ func upsertQueryReferenceAndInformation(s *snapshot.FullSnapshot, statementTexts
 	return idx
 }
 
-func upsertQueryReferenceAndInformationSimple(server *state.Server, refs []*snapshot.QueryReference, infos []*snapshot.QueryInformation, roleIdx int32, databaseIdx int32, originalQuery string, trackActivityQuerySize int) (int32, []*snapshot.QueryReference, []*snapshot.QueryInformation) {
-	fingerprint := util.FingerprintQuery(originalQuery, server.Config.FilterQueryText, trackActivityQuerySize)
+func upsertQueryReferenceAndInformationSimple(server *state.Server, refs []*snapshot.QueryReference, infos []*snapshot.QueryInformation, roleIdx int32, databaseIdx int32, queryID null.Int, originalQuery string, trackActivityQuerySize int) (int32, []*snapshot.QueryReference, []*snapshot.QueryInformation) {
+	var fingerprint uint64
+	if server.PrevState.QueryIdentities != nil && queryID.Valid {
+		if identity, ok := server.PrevState.QueryIdentities[queryID.Int64]; ok {
+			fingerprint = identity.Fingerprint
+		}
+	}
+	if fingerprint == 0 {
+		fingerprint = util.FingerprintQuery(originalQuery, server.Config.FilterQueryText, trackActivityQuerySize)
+	}
 
 	fpBuf := make([]byte, 8)
 	binary.BigEndian.PutUint64(fpBuf, fingerprint)
@@ -82,10 +91,15 @@ func upsertQueryReferenceAndInformationSimple(server *state.Server, refs []*snap
 	idx := int32(len(refs))
 	refs = append(refs, &newRef)
 
+	normalizedQuery := util.NormalizeQuery(originalQuery, server.Config.FilterQueryText, trackActivityQuerySize)
+	if normalizedQuery == util.QueryTextTruncated {
+		normalizedQuery = ""
+	}
+
 	// Information
 	queryInformation := snapshot.QueryInformation{
 		QueryIdx:        idx,
-		NormalizedQuery: util.NormalizeQuery(originalQuery, server.Config.FilterQueryText, trackActivityQuerySize),
+		NormalizedQuery: normalizedQuery,
 	}
 	infos = append(infos, &queryInformation)
 

diff --git a/runner/full.go b/runner/full.go
@@ -5,6 +5,7 @@ import (
 	"fmt"
 	"os/exec"
 	"runtime/debug"
+	"sort"
 	"sync"
 	"time"
 
@@ -67,6 +68,8 @@ func collectDiffAndSubmit(server *state.Server, globalCollectionOpts state.Colle
 		newState.StatementStats = transientState.ResetStatementStats
 	}
 
+	newState.QueryIdentities = pruneQueryIdentities(newState.QueryIdentities)
+
 	return newState, collectionStatus, nil
 }
 
@@ -254,3 +257,27 @@ func CollectAllServers(servers []*state.Server, globalCollectionOpts state.Colle
 
 	return
 }
+
+func pruneQueryIdentities(oldMap state.QueryIdentityMap) (newMap state.QueryIdentityMap) {
+	if len(oldMap) < 100000 {
+		return oldMap
+	}
+	slice := make([]state.QueryIdentity, 0, len(oldMap))
+	for _, identity := range oldMap {
+		slice = append(slice, identity)
+	}
+	sort.Slice(slice, func(i, j int) bool {
+		return slice[i].LastSeen.Before(slice[j].LastSeen)
+	})
+	for _, identity := range slice[:min(len(oldMap), 100000)] {
+		newMap[identity.QueryID] = identity
+	}
+	return
+}
+
+func min(x, y int) int {
+	if x < y {
+		return x
+	}
+	return y
+}
diff --git a/state/postgres_backend.go b/state/postgres_backend.go
@@ -29,6 +29,8 @@ type PostgresBackend struct {
 
 	BackendType null.String // 10+ The process type of this backend
 
+	QueryID null.Int // 14+ The internal query ID which is also available in pg_stat_statements
+
 	Query null.String // Text of this backend's most recent query
 
 	// Current overall state of this backend. Possible values are:

diff --git a/state/postgres_statement.go b/state/postgres_statement.go
@@ -104,3 +104,11 @@ func (stmt DiffedPostgresStatementStats) Add(other DiffedPostgresStatementStats)
 		BlkWriteTime:      stmt.BlkWriteTime + other.BlkWriteTime,
 	}
 }
+
+type QueryIdentity struct {
+	QueryID     int64
+	Fingerprint uint64
+	LastSeen    time.Time
+}
+
+type QueryIdentityMap map[int64]QueryIdentity
diff --git a/state/state.go b/state/state.go
@@ -17,7 +17,7 @@ type SchemaStats struct {
 	FunctionStats PostgresFunctionStatsMap
 }
 
-// PersistedState - State thats kept across collector runs to be used for diffs
+// PersistedState - State that's kept across collector runs
 type PersistedState struct {
 	CollectedAt time.Time
 
@@ -40,6 +40,9 @@ type PersistedState struct {
 
 	// All statement stats that have not been identified (will be cleared by the next full snapshot)
 	UnidentifiedStatementStats HistoricStatementStatsMap
+
+	// Keeps track of queryid -> fingerprint pairs in case a query is no longer in pg_stat_statements
+	QueryIdentities QueryIdentityMap
 }
 
 // TransientState - State thats only used within a collector run (and not needed for diffs)