[TECH] Migrer la colonne knowledge_elements.id de INTEGER en BIG INTEGER (partie 1). #3357

jbuget · 2021-08-19T07:47:48Z

🦄 Problème

Historiquement, les identifiants des tables de données utilisateur (PostgreSQL) sont de type Integer.

Si on ne fait rien, d’ici quelques mois, nous risquons de taper la limite des enregistrements possibles sur la table knowledge-elements qui est de loin la table la plus volumineuse de Pix (700M de lignes), avec un fonctionnement qui se rapproche d’un comportement évènementiel (énormément d’insertions par secondes).

Pour tenir les échéances à venir, nous devons changer le type de de l’ID (clé primaire) des tables les plus volumineuses risquées : knowledge-elements et answers en tête.

Au vu de la quantité de données, les risques sont :

nécessiter une (très importante) indispo de la plateforme
corrompre ou perdre des données
fracasser toutes les données / la plateforme

🤖 Solution

Après étude / POC, nous en sommes venus à la conclusion que la meilleure façon de procéder, avec le minimum de downtime + gestion de projet / com / partenaires et le maximum de contrôle, consiste à développer et exécuter un script / une procédure de changement de type.

Le principe général de ce script est le suivant :

une première phase de "préparation des données" au cours de laquelle on recopie l'identifiant (Integer) vers une nouvelle colonne de type BigInteger (nommée bigintId). Cette phase prend plusieurs heures sur plusieurs centaines de millions de lignes.
une seconde phase dite de "maintenance" dans laquelle on bloque l'accès (via un lock) à la table knowledge-elements (en lecture et écriture) afin de réaliser le renommage des meta-data (faire de la colonne bigintId la nouvelle colonne id)

Lors de notre étude (menées sur des volumes et types de données se rapprochant de la prod, sur zone SecNum Cloud), nous avons obtenu un passage de plusieurs heures de maintenance avec une approche naïve (un bête ALTER TABLE xxx) à une fenêtre de maintenance de moins d'un dixième (< 50ms) d'une seconde (!). En tenant compte d'éventuel passage à l'échelle de la réalité, nous estimons qu'avec cette solution, nous aurons moins de 5 secondes de downtime.

🌈 Remarques

Cette PR est la première d'un lot de 3 PR:

Son but est de :

fournir un premier script de migration qui ajoute la colonne temporaire bigint
faire en sorte qu'il s'exécute automatiquement sur les bases / environnement non-prod (nombre de lignes sur la table KE < 10 millions)
fournir le script Node à exécuter manuellement sur la base de production qui réalise la première phase de préparation (cf. solution ci-dessus)

Notre méthode pour la rédaction des scripts (migration et traitement des données) a été de copier petit à petit – et en y ajoutant des tests autant que possible – les instructions du POC vers le repository.

Il est conseillé de lire les commits unitairement.

💯 Pour tester

Migration des données si faible volumétrie

Localhost ou RA

1/ Exécuter les migrations (depuis /api/) :

npm run db:reset

2/ Rollback les 2 dernières migrations (car c'est tout l'intérêt de cette PR)

npx knex migrate:down --knexfile db/knexfile.js 20210811153908_alter_table_account-recovery-demands_add_foreign_key_not_null_userId.js

3/ Vérifier qu'il y a bien 2 migrations à jouer

npx knex migrate:list --knexfile db/knexfile.js

4/ Jouer la première migration, qui ajoute la colonne knowledge-elements.bigintId ainsi que le trigger

npx knex migrate:up --knexfile db/knexfile.js 20210818155256_copy_id_to_bigintid_on_knowledge-elements.js

5/ Vérifier que la colonne et le trigger sont bien déployés en se connectant à la base en local

$ psql postgresql://postgres@localhost/pix_test
> \d "knowledge-elements"

6/ Jouer la seconde migration

npx knex migrate:up --knexfile db/knexfile.js

7/ Vérifier qu'il n'existe plus de KE avec un champ bigintId ayant pour valeur -1 (valeur par défaut)

$ psql postgresql://postgres@localhost/pix_test
> select * from "knowledge-elements" where "bigintId"=-1;

Migration des données si forte volumétrie

RA

Simuler que les données n'ont pas été migrées

UPDATE "knowledge-elements" SET "bigintId" = -1;
DROP INDEX IF EXISTS "knowledge-elements_bigintId_index";

Paramétrer la variable d'environnement

KNOWLEDGE_ELEMENTS_BIGINT_MIGRATION_CHUNK_SIZE=10000

Exécuter la migration

scalingo --region osc-fr1 --app pix-api-review-pr3357 run --detached "node scripts/prepare-ke-bigint-id-to-be-used-as-primary-key.js"

Vérifier dans les logs que la migration a eu lieu et s'est arrêtée

2021-08-19 12:32:40.084123841 +0200 CEST [one-off-2954] {"name":"pix-api","hostname":"pix-api-review-pr3357-one-off-2954","pid":24,"level":30,"msg":"Updated rows : 50","time":"2021-08-19T10:32:40.083Z","v":0}`
2021-08-19 12:32:40.485565540 +0200 CEST [manager] container [one-off-2954] (611e33466ffbd90d43fcc7ea) has stopped

Note: dû à la structure des seeeds (discontinuité des identifiants), les logs mentionnent

2021-08-19 12:32:40.084123841 +0200 CEST [one-off-2954] {"name":"pix-api","hostname":"pix-api-review-pr3357-one-off-2954","pid":24,"level":30,"msg":"Updated rows : 0","time":"2021-08-19T10:32:40.083Z","v":0}`

Vérifier en BDD que les données ont été migrées

SELECT * FROM "knowledge-elements" WHERE "bigintId" = -1; 
(0 rows)

SELECT * FROM "knowledge-elements" WHERE "bigintId" <> "id";
(0 rows)

Vérifier que l'index est créé et valide

SELECT ndx.indisvalid 
FROM pg_index ndx INNER JOIN pg_class cls ON ndx.indexrelid = cls.oid
WHERE cls.relname  = 'knowledge-elements_bigintId_index'

Copie de la production

TODO (dump en cours de restauration)

scalingo --regionosc-secnum-fr1 --app pix-int-to-bigint-test run --detached "node scripts/prepare-ke-bigint-id-to-be-used-as-primary-key.js"

pix-service · 2021-08-19T07:51:54Z

I'm deploying this PR to these urls:

App (.fr): https://app-pr3357.review.pix.fr
App (.org): https://app-pr3357.review.pix.org
Orga: https://orga-pr3357.review.pix.fr
Certif: https://certif-pr3357.review.pix.fr
Admin: https://admin-pr3357.review.pix.fr
API: https://api-pr3357.review.pix.fr/api/

Please check it out!

octo-topi

Pair prog

VincentHardouin

En local ça m'a l'air tout bon

laura-bergoens

J'ai testé fonctionnellement le trigger, la colonne ID est bien copiée dans bigintId

…-elements ID column This commit also contains the delete of a useless test. This commit also contains the first (knex) raw SQL statements that create PLSQL function and a trigger.

…mall databases This migration is only executed for small databases (local, dev, integration, recette). It is why we make a test on MAX_ROW_COUNT_FOR_SYNCHRONOUS_MIGRATION. We select 10 millions rows value because in production there are 700M rows. Unfortunately, we did not find a pragmatic way to make tests on this migration.

…ements.id)

VincentHardouin marked this pull request as draft August 19, 2021 08:16

jbuget force-pushed the tech-ke-int-to-bigint branch 3 times, most recently from 6d5bd03 to 2b2fb09 Compare August 19, 2021 10:21

octo-topi changed the title ~~Tech ke int to bigint~~ [TECH] Migrer la colonne knowledge_elements.id de INTEGER en BIG INTEGER. Aug 19, 2021

octo-topi added Development in progress cross-team Toutes les équipes de dev labels Aug 19, 2021

octo-topi changed the title ~~[TECH] Migrer la colonne knowledge_elements.id de INTEGER en BIG INTEGER.~~ [TECH] Migrer la colonne knowledge_elements.id de INTEGER en BIG INTEGER (partie 1). Aug 19, 2021

octo-topi force-pushed the tech-ke-int-to-bigint branch from 2b2fb09 to d50d4db Compare August 19, 2021 11:56

octo-topi assigned jbuget, jonathanperret and octo-topi Aug 19, 2021

MelanieMEB force-pushed the dev branch from 25166fb to 4a4578c Compare August 19, 2021 12:16

jbuget force-pushed the tech-ke-int-to-bigint branch 2 times, most recently from 4be03b8 to 8ac9a42 Compare August 19, 2021 13:54

octo-topi approved these changes Aug 19, 2021

View reviewed changes

octo-topi added the 👀 Tech Review Needed label Aug 19, 2021

octo-topi marked this pull request as ready for review August 19, 2021 15:18

octo-topi removed the Development in progress label Aug 19, 2021

octo-topi force-pushed the tech-ke-int-to-bigint branch 2 times, most recently from 7e1e3af to 4962cc1 Compare August 19, 2021 15:31

VincentHardouin approved these changes Aug 19, 2021

View reviewed changes

octo-topi mentioned this pull request Aug 19, 2021

[TECH] Migrer la colonne knowledge_elements.id de INTEGER en BIG INTEGER (partie 2). #3364

Merged

laura-bergoens approved these changes Aug 20, 2021

View reviewed changes

octo-topi mentioned this pull request Aug 20, 2021

[TECH] Migrer la colonne knowledge_elements.id de INTEGER en BIG INTEGER (partie 3). #3365

Merged

aceol approved these changes Aug 20, 2021

View reviewed changes

jbuget added 🚀 Ready to Merge and removed 👀 Tech Review Needed labels Aug 20, 2021

Create migration script that prepare the type change of the knowledge…

a676696

…-elements ID column This commit also contains the delete of a useless test. This commit also contains the first (knex) raw SQL statements that create PLSQL function and a trigger.

jbuget added 2 commits August 20, 2021 13:19

Add concurrent existing rows migration script (for table knowledge-el…

c683b52

…ements.id)

pix-service-auto-merge force-pushed the tech-ke-int-to-bigint branch from 4962cc1 to c683b52 Compare August 20, 2021 13:19

pix-service-auto-merge merged commit 23d3bd8 into dev Aug 20, 2021

pix-service-auto-merge deleted the tech-ke-int-to-bigint branch August 20, 2021 13:26

octo-topi mentioned this pull request Sep 3, 2021

[TECH] Migrer la colonne answers.id de INTEGER en BIG INTEGER. #3437

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[TECH] Migrer la colonne knowledge_elements.id de INTEGER en BIG INTEGER (partie 1). #3357

[TECH] Migrer la colonne knowledge_elements.id de INTEGER en BIG INTEGER (partie 1). #3357

jbuget commented Aug 19, 2021 •

edited by octo-topi

pix-service commented Aug 19, 2021

octo-topi left a comment

VincentHardouin left a comment

laura-bergoens left a comment

[TECH] Migrer la colonne knowledge_elements.id de INTEGER en BIG INTEGER (partie 1). #3357

[TECH] Migrer la colonne knowledge_elements.id de INTEGER en BIG INTEGER (partie 1). #3357

Conversation

jbuget commented Aug 19, 2021 • edited by octo-topi

🦄 Problème

🤖 Solution

🌈 Remarques

💯 Pour tester

Migration des données si faible volumétrie

Localhost ou RA

Migration des données si forte volumétrie

RA

Copie de la production

pix-service commented Aug 19, 2021

octo-topi left a comment

Choose a reason for hiding this comment

VincentHardouin left a comment

Choose a reason for hiding this comment

laura-bergoens left a comment

Choose a reason for hiding this comment

jbuget commented Aug 19, 2021 •

edited by octo-topi