Índices no Banco de Dados #1156

filipedeschamps · 2022-12-19T23:22:55Z

Contexto

Antes do lançamento, se eu não me engano o TabNews não tinha índices voltados a performance (ele tinha apenas voltado para o uniqueness de um conteúdo), e foi muito interessante ver o comportamento disto em produção 😅 O gráfico abaixo é o load do Postgres no dia do lançamento:

No dia seguinte, o problema de processamento estava acontecendo de novo, e então eu apliquei em produção a segunda parte desse PR que trazia índice para o balance_operation:

O que fez o load do gráfico li de cima voltar a ficar saudável, literalmente foi aplicar isso aqui abaixo:

exports.up = async (pgm) => {
  await pgm.createIndex('balance_operations', ['balance_type', 'recipient_id']);
};

É um índice de múltipla coluna entre balance_type e recipient_id por conta disso ser usado na procedure get_current_balance:

tabnews.com.br/infra/migrations/1655868441752_create-table-balance-operations.js

Lines 47 to 84 in 0bbb0f6

    
             await pgm.createFunction( 
        
               'get_current_balance', 
        
               [ 
        
                 { 
        
                   name: 'balance_type_input', 
        
                   mode: 'IN', 
        
                   type: 'text', 
        
                 }, 
        
                 { 
        
                   name: 'recipient_id_input', 
        
                   mode: 'IN', 
        
                   type: 'uuid', 
        
                 }, 
        
               ], 
        
               { 
        
                 returns: 'integer', 
        
                 language: 'plpgsql', 
        
                 replace: true, 
        
               }, 
        
               ` 
        
               DECLARE 
        
                 total_balance integer; 
        
               BEGIN 
        
                 total_balance := ( 
        
                   SELECT 
        
                     COALESCE(sum(amount), 0) 
        
                   FROM 
        
                     balance_operations 
        
                   WHERE 
        
                     balance_type = balance_type_input 
        
                     AND recipient_id = recipient_id_input 
        
                 ); 
        
                 RETURN total_balance; 
        
               END; 
        
             ` 
        
             ); 
        
           };

Mais especificamente nesta parte:

tabnews.com.br/infra/migrations/1655868441752_create-table-balance-operations.js

Lines 75 to 77 in 0bbb0f6

    
                   WHERE 
        
                     balance_type = balance_type_input 
        
                     AND recipient_id = recipient_id_input

Então qualquer WHERE que queira aproveitar este cache, precisa pedir os dados nesta exata mesma sequência.

Bom, escrevi tudo isto para nos animar a procurar mais oportunidades de criar índices, pois tem em todos os lugares do TabNews, desde criação de usuário, criação de conteúdo, leitura de conteúdo, verificação de sessão ativa, literalmente tudo tem margem para otimização.

Execução

Eu sou zero especialista em criar índices, mas devemos tomar cuidado para não criar índices que não tragam resultados reais e para isto sugiro utilizar ferramentas auxiliares para comprovar que, o que estamos fazendo, está de fato trazendo resultado, e tudo isto pode ser testado com a instância local do Postgres que rodamos com o Docker. As ferramentas auxiliares que coletei foram a seguinte, mas não deixem de complementar com outras sugestões:

https://explain.depesz.com/ (gratuito)
https://tatiyants.com/pev/#/plans (gratuito)
https://www.pgmustard.com/ (pago, mas simplesmente sensacional, video demonstração)

Sugiro também tomar cuidado com índices de múltiplas colunas, pois pelo que estudei, as vezes o Postgres consegue se dar muito bem combinando vários índices separados, e isto é ótimo, pois nos dá mais flexibilidade nas queries.

Fora isso, para certas coisas precisaremos rearquitetar a modelagem, como por exemplo, para o findChildrenTree() do content, vamos provavelmente adicionar uma coluna root_id e indexar tudo por ali.

Bom, qualquer novo PR que for merged sobre índice, vamos listar ele aqui nessa seção de Execução, então por hora vou listar somente o que já foi feito:

Adiciona índices na query do findChildrenTree e balance_operation #882

The text was updated successfully, but these errors were encountered:

FabricioFFC · 2023-03-11T05:18:16Z

@filipedeschamps e @aprendendofelipe vcs têm habilitado em produção o slow query log? Ele é uma boa fonte de informações, para sabermos melhor quais queries precisam ser otimizadas, se tiverem, podem disponibilizar por favor?

Caso precisem de ajudar para habilitar, a referência que linkei explica e posso ajudar também. Essa é uma otimização que já fiz no passado e gostaria de ajudar aqui :)

filipedeschamps · 2023-03-11T16:08:00Z

@FabricioFFC muito massa te ver aqui no repositório 😍 para quem não sabe eu e o Fabrício já trabalhamos juntos no passado 🤝

E não está habilitado, o único parameter group que temos habilitado é este:

tabnews.com.br/infra/provisioning/modules/database/main.tf

Lines 90 to 93 in 2a12cbc

    
           parameter { 
        
             name  = "idle_session_timeout" 
        
             value = "0" 
        
           }

FabricioFFC · 2023-03-11T20:36:05Z

@filipedeschamps @aprendendofelipe show! abri uma PR habilitando, qq coisa só me avisar.

filipedeschamps · 2023-03-20T16:00:43Z

@FabricioFFC segue os principais logs:

duration: 2619.477 ms  execute <unnamed>:
	    WITH
	    latest_published_root_contents AS (
	        SELECT
	            contents.id,
	            contents.owner_id,
	            contents.parent_id,
	            contents.slug,
	            contents.title,
	            contents.status,
	            contents.source_url,
	            contents.created_at,
	            contents.updated_at,
	            contents.published_at,
	            contents.deleted_at,
	            get_current_balance('content:tabcoin', contents.id) as tabcoins
	        FROM contents
	        WHERE
	            parent_id IS NULL
	            AND status = 'published'
	            AND published_at > NOW() - INTERVAL '1 week'
	    ),
	    ranked_published_root_contents AS (
	        SELECT
	            *,
	            COUNT(*) OVER()::INTEGER as total_rows
	        FROM latest_published_root_contents
	        WHERE tabcoins > 0
	        ORDER BY
	            tabcoins DESC,
	            published_at DESC
	    ),
	    group_1 AS (
	        SELECT
	            *,
	            1 as rank_group
	        FROM ranked_published_root_contents
	        WHERE
	            published_at > NOW() - INTERVAL '36 hours'
	            AND tabcoins > 11
	        ORDER BY
	            published_at DESC
	        LIMIT 10
	    ),
	    group_2 AS (
	        SELECT * FROM group_1
	        UNION ALL
	        SELECT
	            *,
	            2 as rank_group
	        FROM ranked_published_root_contents
	        WHERE
	            published_at > NOW() - INTERVAL '24 hours'
	            AND tabcoins > 6
	            AND id NOT IN (SELECT id FROM group_1)
	        ORDER BY
	            rank_group,
	            published_at DESC
	        LIMIT 20
	    ),
	    group_3 AS (
	        (SELECT
	            *,
	            3 as rank_group
	        FROM ranked_published_root_contents
	        WHERE
	            published_at > NOW() - INTERVAL '12 hours'
	            AND id NOT IN (SELECT id FROM group_2)
	        ORDER BY
	            published_at DESC
	        LIMIT 5)
	        UNION ALL
	        SELECT * FROM group_2
	    ),
	    group_4 AS (
	        (SELECT
	            *,
	            4 as rank_group
	        FROM ranked_published_root_contents
	        WHERE
	            published_at > NOW() - INTERVAL '3 days'
	            AND tabcoins > 11
	            AND id NOT IN (SELECT id FROM group_3)
	        ORDER BY
	            published_at DESC
	        LIMIT 10)
	        UNION ALL
	        SELECT * FROM group_3
	    ),
	    group_5 AS (
	        (SELECT
	            *,
	            5 as rank_group
	        FROM ranked_published_root_contents
	        WHERE
	            published_at > NOW() - INTERVAL '72 hours'
	            AND tabcoins > 2
	            AND id NOT IN (SELECT id FROM group_4)
	        ORDER BY
	            published_at DESC
	        LIMIT 10)
	        UNION ALL
	        SELECT * FROM group_4
	    ),
	    ranked AS (
	        SELECT * FROM group_5
	        UNION ALL
	        SELECT
	            *,
	            6 as rank_group
	        FROM ranked_published_root_contents
	        WHERE id NOT IN (SELECT id FROM group_5)
	        ORDER BY
	            rank_group,
	            tabcoins DESC,
	            published_at DESC
	        LIMIT $1
	        OFFSET $2
	    )
	    SELECT
	        ranked.id,
	        ranked.owner_id,
	        ranked.parent_id,
	        ranked.slug,
	        ranked.title,
	        ranked.status,
	        ranked.source_url,
	        ranked.created_at,
	        ranked.updated_at,
	        ranked.published_at,
	        ranked.deleted_at,
	        ranked.tabcoins,
	        ranked.rank_group,
	        ranked.total_rows,
	        users.username as owner_username,
	        (WITH RECURSIVE children AS
	            (SELECT id,
	                 parent_id
	            FROM contents as all_contents
	            WHERE
	                all_contents.id = ranked.id
	                AND all_contents.status = 'published'
	            UNION ALL
	            SELECT
	                all_contents.id,
	                all_contents.parent_id
	            FROM contents as all_contents
	            INNER JOIN children ON all_contents.parent_id = children.id
	            WHERE all_contents.status = 'published'
	            )
	            SELECT count(children.id)::integer
	            FROM children
	            WHERE children.id NOT IN (ranked.id)
	        ) as children_deep_count
	        FROM ranked
	        INNER JOIN users ON ranked.owner_id = users.id
	        ORDER BY
	            rank_group,
	            tabcoins DESC,
	            published_at DESC;

DETAIL:  parameters: $1 = '30', $2 = '0'
duration: 3006.857 ms  execute <unnamed>: 
	      WITH content_window AS (
	      SELECT
	        COUNT(*) OVER()::INTEGER as total_rows,
	        id
	      FROM contents
	      WHERE contents.parent_id IS NOT DISTINCT FROM $3 AND contents.status = $4
	      ORDER BY contents.published_at DESC
	
	      LIMIT $1 OFFSET $2
	      )
	      
	      SELECT
	        contents.id,
	        contents.owner_id,
	        contents.parent_id,
	        contents.slug,
	        contents.title,
	        contents.body,
	        contents.status,
	        contents.source_url,
	        contents.created_at,
	        contents.updated_at,
	        contents.published_at,
	        contents.deleted_at,
	        users.username as owner_username,
	        content_window.total_rows,
	        get_current_balance('content:tabcoin', contents.id) as tabcoins,
	
	        -- Originally this query returned a list of contents to the server and
	        -- afterward made an additional roundtrip to the database for every item using
	        -- the findChildrenCount() method to get the children count. Now we perform a
	        -- subquery that is not performant but everything is embedded in one travel.
	        -- https://github.com/filipedeschamps/tabnews.com.br/blob/de65be914f0fd7b5eed8905718e4ab286b10557e/models/content.js#L51
	        (
	          WITH RECURSIVE children AS (
	            SELECT
	                id,
	                parent_id
	            FROM
	              contents as all_contents
	            WHERE
	              all_contents.id = contents.id AND
	              all_contents.status = 'published'
	            UNION ALL
	              SELECT
	                all_contents.id,
	                all_contents.parent_id
	              FROM
	                contents as all_contents
	              INNER JOIN
	                children ON all_contents.parent_id = children.id
	              WHERE
	                all_contents.status = 'published'
	          )
	          SELECT
	            count(children.id)::integer
	          FROM
	            children
	          WHERE
	            children.id NOT IN (contents.id)
	        ) as children_deep_count
	      FROM
	        contents
	      INNER JOIN
	        content_window ON contents.id = content_window.id
	      INNER JOIN
	        users ON contents.owner_id = users.id
	    
	      ORDER BY contents.published_at DESC
	      ;

DETAIL:  parameters: $1 = '30', $2 = '900', $3 = NULL, $4 = 'published'
duration: 2312.163 ms  execute <unnamed>: 
	      WITH content_window AS (
	      SELECT
	        COUNT(*) OVER()::INTEGER as total_rows,
	        id
	      FROM contents
	      WHERE contents.parent_id IS NOT DISTINCT FROM $3 AND contents.status = $4
	      ORDER BY contents.published_at DESC
	
	      LIMIT $1 OFFSET $2
	      )
	      
	      SELECT
	        contents.id,
	        contents.owner_id,
	        contents.parent_id,
	        contents.slug,
	        contents.title,
	        contents.body,
	        contents.status,
	        contents.source_url,
	        contents.created_at,
	        contents.updated_at,
	        contents.published_at,
	        contents.deleted_at,
	        users.username as owner_username,
	        content_window.total_rows,
	        get_current_balance('content:tabcoin', contents.id) as tabcoins,
	
	        -- Originally this query returned a list of contents to the server and
	        -- afterward made an additional roundtrip to the database for every item using
	        -- the findChildrenCount() method to get the children count. Now we perform a
	        -- subquery that is not performant but everything is embedded in one travel.
	        -- https://github.com/filipedeschamps/tabnews.com.br/blob/de65be914f0fd7b5eed8905718e4ab286b10557e/models/content.js#L51
	        (
	          WITH RECURSIVE children AS (
	            SELECT
	                id,
	                parent_id
	            FROM
	              contents as all_contents
	            WHERE
	              all_contents.id = contents.id AND
	              all_contents.status = 'published'
	            UNION ALL
	              SELECT
	                all_contents.id,
	                all_contents.parent_id
	              FROM
	                contents as all_contents
	              INNER JOIN
	                children ON all_contents.parent_id = children.id
	              WHERE
	                all_contents.status = 'published'
	          )
	          SELECT
	            count(children.id)::integer
	          FROM
	            children
	          WHERE
	            children.id NOT IN (contents.id)
	        ) as children_deep_count
	      FROM
	        contents
	      INNER JOIN
	        content_window ON contents.id = content_window.id
	      INNER JOIN
	        users ON contents.owner_id = users.id
	    
	      ORDER BY contents.published_at DESC
	      ;

E nosso maior inimigo é o RECURSIVE e eu especulo que todos esses logs irão sumir quando implementarmos algo como isso:

Fora isso, para certas coisas precisaremos rearquitetar a modelagem, como por exemplo, para o findChildrenTree() do content, vamos provavelmente adicionar uma coluna root_id e indexar tudo por ali.

aprendendofelipe · 2023-03-20T16:14:16Z

Fora isso, para certas coisas precisaremos rearquitetar a modelagem, como por exemplo, para o findChildrenTree() do content, vamos provavelmente adicionar uma coluna root_id e indexar tudo por ali.

Em se tratando de performance, também acho que criar o root_id deve ser a prioridade.

FabricioFFC · 2023-03-20T19:12:18Z

@aprendendofelipe e @filipedeschamps muito bom!

Vou focar essa semana nesse tópico, avaliando a criação do root_id. Embora antes dele, preciso aprofundar nas queries, para entender como a criação dele vai ajudar.

Obrigado pela ajuda de vcs!

aprendendofelipe · 2023-03-20T19:38:47Z

Show @FabricioFFC! 💪

Sobre a criação do root_id, a issue #1169 explica melhor, e se tiver qualquer dúvida a gente pode ir conversando lá. 🤝

Mas lá não é só otimizar a consulta, pois precisa modelar melhor os dados e mudar a regra de negócio, então se preferir lidar com os índices, também é algo que vai ajudar bastante. Eu só acho melhor começar por lá porque eliminar essa carga vai facilitar depois medir o impacto dos índices no desempenho. 👍

FabricioFFC · 2023-03-20T19:47:33Z

Me parece também melhor começar pela #1169, pois a criação de índice só valeria agora se tivermos com uma dor latente em produção, que os índices aliviaria (não me parece ser o caso, se for me avise), já que a criação de índice provavelmente será impactada com a criação do root_id.

aprendendofelipe · 2023-06-09T16:15:08Z

@filipedeschamps, como estão os logs agora? Ainda está pegando algo acima de 2s?

aprendendofelipe · 2023-06-09T16:58:14Z

@filipedeschamps, como estão os logs agora? Ainda está pegando algo acima de 2s?

@filipedeschamps, quando for olhar os logs, aproveita e tenta ver se houve algum aumento significativo no uso do banco de dados com a mudança da revalidação da página de conteúdos de 10s para 1s. Subi para produção às 13:44 e parece que levou um tempo maior para diminuir o número de conexões abertas com o banco, mas já voltou para um patamar só um pouco acima de antes do deploy.

aprendendofelipe · 2024-04-11T00:43:10Z

Turma, os logs não vem registrando mais nenhuma query acima de 2s. E a utilização de CPU do banco dificilmente passa de 10%.

A gente pode diminuir o valor de log_min_duration_statement para descobrir outras queries que possam ser otimizadas, mas com essa utilização de CPU tão baixa, acho que podemos dar a issue o como concluída por enquanto, e voltar a analisar os índices/queries se algo piorar após a implementação da Revenue Share.

O que acham?

Rafatcb · 2024-04-11T01:33:33Z

Acho que faz sentido diminuir o valor do log_min_duration_statement para ficarmos cientes de quais são as próximas queries problemáticas, e também fechar este issue 👍

Então, se houver uma query significativamente lenta, acredito que podemos criar um issue dedicado para ela.

Você consegue ver como estão os endpoints? Pode ser que algum seja lento por executar várias queries separadas, e assim nenhuma query chama a atenção no log.

aprendendofelipe · 2024-04-13T00:19:36Z

Acho que faz sentido diminuir o valor do log_min_duration_statement para ficarmos cientes de quais são as próximas queries problemáticas,

Olhando os tempos médios de execução das funções lambdas, nenhuma query poderia estar passando de 1s. Podemos deixar para baixar o valor do log_min_duration_statement quando realmente precisar, ou aproveitamos quando formos fazer alguma outra alteração no terraform.

e também fechar este issue 👍

Vou fechar 🤝

Então, se houver uma query significativamente lenta, acredito que podemos criar um issue dedicado para ela.

No momento, não há! 🎉

Você consegue ver como estão os endpoints? Pode ser que algum seja lento por executar várias queries separadas, e assim nenhuma query chama a atenção no log.

Se fala dos tempos de resposta das requisições para cada endpoint, não temos essa métrica. Isso seria algo para ser coletado e enviado pelo client. Mas acredito que não fala disso, pois não seria muito útil para analisar a performance do banco de dados, já que boa parte das requisições são atendidas pelo cache.

Se fala do tempo de execução das lambdas, isso eu dei uma olhada. Não temos problemas de perfomance com as queries, mas, se fosse o caso de diminuir a utilização de recursos na Vercel (usamos cerca de 25% da cota mensal), deveríamos atacar nesta ordem:

GET /[username]/[slug]: só 290ms, mas impacta pelo volume de invocações, que chega a 10% da cota;
GET /api/v1/contents/rss: 1839ms, o que faz chegar a 4% da cota, e o problema não é o BD;
GET /api/v1/contents/[username]/[slug]/thumbnail: só 390ms, mas impacta pelo volume, que chega a 3% da cota;
Outras listagens de conteúdos, excluindo o RSS, chegam juntas a 2% da cota que temos na Vercel.

Agora, olhando para UX, precisamos atacar nesta ordem:

GET /api/v1/contents/rss: 1839ms, pois puxa mais dados do banco (contém o body), precisa remover o markdown para criar a description, gerar html para o content, filtrar a saída com o validator, e tudo isso para 30 conteúdos.
POST /api/v1/contents: 1514ms, pois faz muitas leituras e gravações no banco (talvez dê para unificar algumas);

O RSS só fica no topo aqui porque eu desconsiderei todos os POSTs/PATCHs que envolvem salvar ou verificar a senha, pois são os mais lentos por causa do bcryptjs.

Por fim, olhando para SEO, acho que o foco seria:

GET /api/v1/contents/rss: pois é acessado com frequência pelo Google, e o P99 passa de 8s;
GET /api/v1/contents/[username]/[slug]/thumbnail: pois é acessado por diferentes redes sociais, e o P99 chega a 4s;

Com tudo isso, se for para dar atenção para algum endpoint, começaria pelo RSS.

Mas nada disso envolve problemas com alguma query específica, mas sim com o que é executado na lambda, então de fato essa issue está concluída. 🎉🎉🎉

Rafatcb · 2024-04-13T00:22:50Z

Se fala do tempo de execução das lambdas

Era isso mesmo. Obrigado pelos dados 🤝, excelente resumo.

filipedeschamps added the back Envolve modificações no backend label Dec 19, 2022

filipedeschamps added this to the Milestone 6: Performance e Segurança milestone Dec 19, 2022

filipedeschamps mentioned this issue Dec 19, 2022

Milestone 6 - Performance e Segurança #1140

Closed

FabricioFFC mentioned this issue Mar 20, 2023

chore(terraform): bump database engine_version in staging to 14.3 #1327

Merged

aprendendofelipe mentioned this issue Aug 2, 2023

Milestone 7: Revenue Share [DRAFT] #1490

Open

aprendendofelipe modified the milestones: Milestone 6: Performance e Segurança, Milestone 7: Revenue Share Aug 2, 2023

Rafatcb mentioned this issue Dec 15, 2023

Vamos preparar o repositório para abertura da Milestone de Revenue Share? #1526

Closed

Rafatcb added the desempenho Melhoria de desempenho label Dec 16, 2023

aprendendofelipe closed this as completed Apr 13, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Índices no Banco de Dados #1156

Índices no Banco de Dados #1156

filipedeschamps commented Dec 19, 2022

FabricioFFC commented Mar 11, 2023

filipedeschamps commented Mar 11, 2023

FabricioFFC commented Mar 11, 2023

filipedeschamps commented Mar 20, 2023

aprendendofelipe commented Mar 20, 2023

FabricioFFC commented Mar 20, 2023 •

edited

Loading

aprendendofelipe commented Mar 20, 2023

FabricioFFC commented Mar 20, 2023

aprendendofelipe commented Jun 9, 2023

aprendendofelipe commented Jun 9, 2023

aprendendofelipe commented Apr 11, 2024

Rafatcb commented Apr 11, 2024 •

edited

Loading

aprendendofelipe commented Apr 13, 2024

Rafatcb commented Apr 13, 2024

Índices no Banco de Dados #1156

Índices no Banco de Dados #1156

Comments

filipedeschamps commented Dec 19, 2022

Contexto

Execução

FabricioFFC commented Mar 11, 2023

filipedeschamps commented Mar 11, 2023

FabricioFFC commented Mar 11, 2023

filipedeschamps commented Mar 20, 2023

aprendendofelipe commented Mar 20, 2023

FabricioFFC commented Mar 20, 2023 • edited Loading

aprendendofelipe commented Mar 20, 2023

FabricioFFC commented Mar 20, 2023

aprendendofelipe commented Jun 9, 2023

aprendendofelipe commented Jun 9, 2023

aprendendofelipe commented Apr 11, 2024

Rafatcb commented Apr 11, 2024 • edited Loading

aprendendofelipe commented Apr 13, 2024

Rafatcb commented Apr 13, 2024

FabricioFFC commented Mar 20, 2023 •

edited

Loading

Rafatcb commented Apr 11, 2024 •

edited

Loading