Include 8x columnar compression example (#1002)

citusdata · May 5, 2021 · c600bdb · c600bdb
1 parent b1e241e
commit c600bdb
Showing 1 changed file with 71 additions and 12 deletions.
diff --git a/admin_guide/table_management.rst b/admin_guide/table_management.rst
@@ -95,6 +95,9 @@ warehousing workloads. When columns (rather than rows) are stored contiguously
 on disk, data becomes more compressible, and queries can request a subset of
 columns more quickly.
 
+Usage
+-----
+
 To use columnar storage, specify ``USING columnar`` when creating a table:
 
 .. code-block:: postgresql
@@ -163,25 +166,81 @@ eventual stripe.
 Because of how it's measured, the compression rate may or may not match the
 size difference between row and columnar storage for a table. The only way
 truly find that difference is to construct a row and columnar table that
-contain the same data, and compare:
+contain the same data, and compare.
+
+Measuring compression
+---------------------
+
+Let's create a new example with more data to benchmark the compression savings.
 
 .. code-block:: postgresql
 
-  CREATE TABLE contestant_row AS
-      SELECT * FROM contestant;
+    -- first a wide table using row storage
+    CREATE TABLE perf_row(
+      c00 int8, c01 int8, c02 int8, c03 int8, c04 int8, c05 int8, c06 int8, c07 int8, c08 int8, c09 int8,
+      c10 int8, c11 int8, c12 int8, c13 int8, c14 int8, c15 int8, c16 int8, c17 int8, c18 int8, c19 int8,
+      c20 int8, c21 int8, c22 int8, c23 int8, c24 int8, c25 int8, c26 int8, c27 int8, c28 int8, c29 int8,
+      c30 int8, c31 int8, c32 int8, c33 int8, c34 int8, c35 int8, c36 int8, c37 int8, c38 int8, c39 int8,
+      c40 int8, c41 int8, c42 int8, c43 int8, c44 int8, c45 int8, c46 int8, c47 int8, c48 int8, c49 int8,
+      c50 int8, c51 int8, c52 int8, c53 int8, c54 int8, c55 int8, c56 int8, c57 int8, c58 int8, c59 int8,
+      c60 int8, c61 int8, c62 int8, c63 int8, c64 int8, c65 int8, c66 int8, c67 int8, c68 int8, c69 int8,
+      c70 int8, c71 int8, c72 int8, c73 int8, c74 int8, c75 int8, c76 int8, c77 int8, c78 int8, c79 int8,
+      c80 int8, c81 int8, c82 int8, c83 int8, c84 int8, c85 int8, c86 int8, c87 int8, c88 int8, c89 int8,
+      c90 int8, c91 int8, c92 int8, c93 int8, c94 int8, c95 int8, c96 int8, c97 int8, c98 int8, c99 int8
+    );
+    
+    -- next a table with identical columns using columnar storage
+    CREATE TABLE perf_columnar(LIKE perf_row) USING COLUMNAR;
+
+Fill both tables with the same large dataset:
 
-  SELECT pg_total_relation_size('contestant_row') as row_size,
-         pg_total_relation_size('contestant') as columnar_size;
+.. code-block:: postgresql
 
-::
+    INSERT INTO perf_row
+      SELECT
+        g % 00500, g % 01000, g % 01500, g % 02000, g % 02500, g % 03000, g % 03500, g % 04000, g % 04500, g % 05000,
+        g % 05500, g % 06000, g % 06500, g % 07000, g % 07500, g % 08000, g % 08500, g % 09000, g % 09500, g % 10000,
+        g % 10500, g % 11000, g % 11500, g % 12000, g % 12500, g % 13000, g % 13500, g % 14000, g % 14500, g % 15000,
+        g % 15500, g % 16000, g % 16500, g % 17000, g % 17500, g % 18000, g % 18500, g % 19000, g % 19500, g % 20000,
+        g % 20500, g % 21000, g % 21500, g % 22000, g % 22500, g % 23000, g % 23500, g % 24000, g % 24500, g % 25000,
+        g % 25500, g % 26000, g % 26500, g % 27000, g % 27500, g % 28000, g % 28500, g % 29000, g % 29500, g % 30000,
+        g % 30500, g % 31000, g % 31500, g % 32000, g % 32500, g % 33000, g % 33500, g % 34000, g % 34500, g % 35000,
+        g % 35500, g % 36000, g % 36500, g % 37000, g % 37500, g % 38000, g % 38500, g % 39000, g % 39500, g % 40000,
+        g % 40500, g % 41000, g % 41500, g % 42000, g % 42500, g % 43000, g % 43500, g % 44000, g % 44500, g % 45000,
+        g % 45500, g % 46000, g % 46500, g % 47000, g % 47500, g % 48000, g % 48500, g % 49000, g % 49500, g % 50000
+      FROM generate_series(1,50000000) g;
+    
+    INSERT INTO perf_columnar
+      SELECT
+        g % 00500, g % 01000, g % 01500, g % 02000, g % 02500, g % 03000, g % 03500, g % 04000, g % 04500, g % 05000,
+        g % 05500, g % 06000, g % 06500, g % 07000, g % 07500, g % 08000, g % 08500, g % 09000, g % 09500, g % 10000,
+        g % 10500, g % 11000, g % 11500, g % 12000, g % 12500, g % 13000, g % 13500, g % 14000, g % 14500, g % 15000,
+        g % 15500, g % 16000, g % 16500, g % 17000, g % 17500, g % 18000, g % 18500, g % 19000, g % 19500, g % 20000,
+        g % 20500, g % 21000, g % 21500, g % 22000, g % 22500, g % 23000, g % 23500, g % 24000, g % 24500, g % 25000,
+        g % 25500, g % 26000, g % 26500, g % 27000, g % 27500, g % 28000, g % 28500, g % 29000, g % 29500, g % 30000,
+        g % 30500, g % 31000, g % 31500, g % 32000, g % 32500, g % 33000, g % 33500, g % 34000, g % 34500, g % 35000,
+        g % 35500, g % 36000, g % 36500, g % 37000, g % 37500, g % 38000, g % 38500, g % 39000, g % 39500, g % 40000,
+        g % 40500, g % 41000, g % 41500, g % 42000, g % 42500, g % 43000, g % 43500, g % 44000, g % 44500, g % 45000,
+        g % 45500, g % 46000, g % 46500, g % 47000, g % 47500, g % 48000, g % 48500, g % 49000, g % 49500, g % 50000
+      FROM generate_series(1,50000000) g;
+    
+    VACUUM (FREEZE, ANALYZE) perf_row;
+    VACUUM (FREEZE, ANALYZE) perf_columnar;
+
+For this data, you can see a compression ratio of better than 8X in the columnar table.
 
-  .
-   row_size | columnar_size
-  ----------+---------------
-      16384 |         24576
+.. code-block:: postgresql
+
+    SELECT pg_total_relation_size('perf_row')::numeric/
+           pg_total_relation_size('perf_columnar') AS compression_ratio;
+
+::
 
-For our tiny table the columnar storage actually uses more space, but as the
-data grows, compression will win.
+    .
+     compression_ratio
+    --------------------
+     8.0196135873627944
+    (1 row)
 
 Example
 -------