In [1]:
from weasyprint import HTML

# Define HTML content
html_content = """
<!DOCTYPE html>
<html lang="pt">
<head>
    <meta charset="UTF-8">
    <title>Análise de variantes de M. tuberculosis para iniciantes</title>
</head>
<body>
<h1>Análise de variantes de _M. tuberculosis_ para iniciantes</h1>
<p><img alt="Logotipo do GTN" class="float-left" style="border-width:0; display: inline-block; margin:0" src="https://training.galaxyproject.org/training-material/assets/images/GTN-60px.png" width="60" height="60"> 
**Tutorial original:** https://training.galaxyproject.org/training-material/topics/variant-analysis/tutorials/tb-variant-analysis/tutorial.html <br>
**Autores originais:** Peter van Heusden, Simon Gladman, Thoba Lose <br> 
**Data:** 25/07/2020 <br>
**Adaptação:** Nuno S. Osório <br> 
**Data da adaptação:** 28/10/2024 <br>

<h2>Introdução</h2>
<p>A tuberculose (TB) é uma doença infecciosa causada pela bactéria <em>Mycobacterium tuberculosis</em>. De acordo com a <a href="https://www.who.int/tb/publications/global_report/en/">OMS</a>, em 2018, ocorreram 10 milhões de novos casos de TB em todo o mundo e 1,4 milhões de mortes devido à doença, tornando a TB a doença infecciosa mais mortal do mundo. A <a href="https://www.ncbi.nlm.nih.gov/pubmed/9634230">publicação</a> do genoma da <em>M. tuberculosis H37Rv</em> em 1998 deu aos pesquisadores uma nova e poderosa ferramenta para entender esse patógeno. Este genoma foi revisado desde então, com a versão mais recente disponível como entrada RefSeq <a href="https://www.ncbi.nlm.nih.gov/nuccore/NC_000962.3/">NC_000962.3</a>. O genoma compreende um único cromossoma circular de cerca de 4,4 megabases. A estirpe H37Rv da qual o genoma foi sequenciado é uma estirpe de laboratório preservada há muito tempo, originalmente <a href="https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2132400">isolada</a> de um paciente em 1905 e <a href="https://journals.sagepub.com/doi/abs/10.3181/00379727-33-8330P">nomeada</a> como H37Rv em 1935. É notavelmente diferente em algumas <a href="https://www.sciencedirect.com/science/article/pii/S0888754317300617?via%3Dihub">regiões</a> genómicas de algumas estirpes clínicas modernas, mas continua sendo a sequência de referência padrão para <em>M. tuberculosis</em> (Mtb). Num contexto mais amplo, <em>M. tuberculosis</em> é um membro proeminente do Complexo <em>Mycobacterium Tuberculosis</em> (MTBC).</p>
<p>Este grupo de espécies relacionadas compreende as <a href="https://wwwnc.cdc.gov/eid/article/30/3/23-1466_article">10</a> <a href="https://www.ncbi.nlm.nih.gov/pubmed/29456241">linhagens</a> de <em>M. tuberculosis</em> que infectam humanos, bem como espécies que infectam animais predominantemente como <em>M. bovis</em> e <em>M. pinnipedii</em>. Dois outros parentes próximos do Mtb, <em>M. leprae</em> e <em>M. lepromatosis</em> circulam entre humanos, causando a hanseníase. Finalmente, entre as micobactérias, existem várias outras espécies que vivem no meio ambiente e podem causar doenças humanas. Estas são as <a href="https://www.ncbi.nlm.nih.gov/pubmed/28345639">micobactérias não tuberculosas</a>.</p>
<p>A variação no genoma da <em>M. tuberculosis</em> (Mtb) está associada a mudanças no fenótipo, por exemplo, <a href="https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-019-0660-8">resistência a medicamentos</a> e <a href="https://www.jci.org/articles/view/173156">virulência</a>. Também é útil para <a href="https://www.frontiersin.org/articles/10.3389/fpubh.2019.00087/full">investigação de surtos</a>, pois os polimorfismos de nucleotídeo único (SNPs) numa amostra podem ser usados para construir uma filogenia.</p>
<p>Este tutorial se concentrará na identificação da variação genómica no Mtb e usará isso para explorar a resistência a medicamentos e outros aspetos da bactéria.</p>
    
<h1>Obtenha seus dados</h1>
<p>Os dados para hoje são uma amostra de <em>M. tuberculosis</em> <a href="https://www.ncbi.nlm.nih.gov/bioproject/PRJEB18529">coletada</a> de um <a href="https://bmcmedicine.biomedcentral.com/articles/10.1186/s12916-017-0834-4">paciente do sul da África</a>. Além da amostra da sequência bacteriana, trabalharemos com uma versão em formato Genbank do genoma do <a href="https://www.nature.com/articles/ng.590">inferido</a> ancestral comum mais recente do complexo <em>M. tuberculosis</em>, que é combinada com a anotação da sequência de referência H37Rv. Este genoma ancestral apenas difere do genoma H37Rv versão 3 (<a href="https://www.ncbi.nlm.nih.gov/nuccore/NC_000962.3">NC_000962.3</a>) pela inserção de SNPs para tentar modelar o ancestral de todas as linhagens de Mtb.</p>

<h2>Mãos à obra: obtenha os dados</h2>
<ol>
<li><span class="tool" data-tool="upload1" title="Import tool" aria-role="button"><i class="fas fa-wrench" aria-hidden="true"></i> <strong>Importar</strong></span> os seguintes arquivos do <a href="https://doi.org/10.5281/zenodo.3960260">Zenodo</a> ou da biblioteca de dados compartilhada
<div class="language-plaintext highlighter-rouge"><div class="highlight"><button class="btn btn-light" data-clipboard-snippet="" tabindex="0"><i class="fa fa-copy"></i>&nbsp;Copy</button><pre class="highlight"><code>https://zenodo.org/record/3960260/files/004-2_1.fastq.gz
https://zenodo.org/record/3960260/files/004-2_2.fastq.gz
https://zenodo.org/record/3960260/files/Mycobacterium_tuberculosis_ancestral_reference.gbk
https://zenodo.org/record/3960260/files/Mycobacterium_tuberculosis_h37rv.ASM19595v2.45.chromosome.Chromosome.gff3
</code></pre></div>      </div>
</li>
</ol>

<h1>Controle de qualidade</h1>
<p>Esta etapa serve para identificar possíveis problemas com os dados de entrada das leituras sequenciadas brutas antes de embarcar em quaisquer etapas de análise "reais".</p>
<p>Alguns dos problemas típicos com dados NGS podem ser mitigados pelo pré-processamento das leituras de sequenciamento afetadas antes de tentar mapeá-las para o genoma de referência. A detecção de outros problemas mais graves desde o início pode, pelo menos, economizar muito tempo gasto na análise de dados de baixa qualidade que não valem o esforço.</p>
<p>Aqui, realizaremos uma verificação de qualidade padrão em nossos dados de entrada e apenas apontaremos alguns aspetos interessantes desses dados. Para uma explicação mais completa do controle de qualidade de dados NGS, você pode consultar o tutorial dedicado sobre <a href="https://training.galaxyproject.org/training-material/topics/sequence-analysis/tutorials/quality-control/tutorial.html">“Controle de qualidade”</a>.</p>

<h2>Mãos à obra: controle de qualidade
<h2>Mãos à obra: controle de qualidade dos conjuntos de dados de entrada</h2>
<ol>
  <li>
    <p>Execute <span class="tool" data-tool="toolshed.g2.bx.psu.edu/repos/devteam/fastqc/fastqc/0.74+galaxy0" title="FastQC tool" aria-role="button"><i class="fas fa-wrench" aria-hidden="true"></i> <strong>FastQC</strong> (<i class="fas fa-cubes" aria-hidden="true"></i> Galaxy version 0.74+galaxy0)</span> em seus conjuntos de dados fastq.</p>
    <ul>
      <li><i class="far fa-copy" aria-hidden="true"></i><span class="visually-hidden">param-files</span> <em>“Dados de leitura curtos do seu histórico atual”</em>: selecione os conjuntos de dados FASTQ.</li>
    </ul>
    <p>O formulário de entrada <i class="fas fa-wrench" aria-hidden="true"></i><span class="visually-hidden">tool</span> <strong>FastQC</strong> é parecido com este. Você só precisa prestar atenção à parte superior, onde <em>Dados de leitura curtos do seu histórico atual</em> está selecionado. Deixe todos os outros parâmetros com seus valores padrão e clique em <em>Executar</em>.</p>
    <p><a href="https://training.galaxyproject.org/training-material/topics/variant-analysis/tutorials/tb-variant-analysis/images/mt_qc.png" rel="noopener noreferrer"><img src="https://training.galaxyproject.org/training-material/topics/variant-analysis/tutorials/tb-variant-analysis/images/mt_qc.png" alt="Entrada e dependências do FastQC" width="800" height="517" loading="lazy"></a></p>
    <p>Quando você inicia este trabalho, quatro novos conjuntos de dados (um com os dados brutos calculados, outro com um relatório html das descobertas para cada conjunto de dados de entrada) serão adicionados ao seu histórico.</p>
  </li>
</ol>

<h2>Mãos à obra: aparando a qualidade</h2>
<ol>
  <li>
    <p>Use <span class="tool" data-tool="toolshed.g2.bx.psu.edu/repos/iuc/fastp/fastp/0.23.4+galaxy0" title="fastp tool" aria-role="button"><i class="fas fa-wrench" aria-hidden="true"></i> <strong>fastp</strong> (<i class="fas fa-cubes" aria-hidden="true"></i> Galaxy version 0.23.4+galaxy0)</span> para limpar as leituras e remover seções de baixa qualidade.</p>
    <ul>
      <li><i class="far fa-copy" aria-hidden="true"></i><span class="visually-hidden">param-files</span> <em>“Entrada de leitura única”</em>: selecione os conjuntos de dados FASTQ.</li>
    </ul>
    <p>Inspecione a saída produzida por <strong>fastp</strong></p>
    <blockquote>
      <p class="question">
        <i class="far fa-question-circle" aria-hidden="true"></i> Questão: Houve diferença no tamanho do arquivo das leituras antes e depois do corte?
        <br>
        <i class="far fa-eye" aria-hidden="true"></i> Solução: Sim, os arquivos de saída são cerca de 15 MB menores que os arquivos de entrada.
      </p>
    </blockquote>
  </li>
</ol>
<h1>Encontrar variantes com Snippy</h1>
<p>Agora, executaremos a ferramenta Snippy em nossas leituras, comparando-as com a referência.</p>
<p><a href="https://github.com/tseemann/snippy">Snippy</a> é uma ferramenta para chamada rápida de SNP bacteriano e alinhamentos de genoma centrais. O Snippy encontra SNPs entre um genoma de referência haploide e suas leituras de sequência NGS. Ele encontrará substituições (SNPs) e inserções/deleções (indels).</p>
<p>Se dermos ao Snippy uma referência anotada no formato Genbank, ele executará uma ferramenta chamada SnpEff que descobrirá o efeito de quaisquer alterações nos genes e outros recursos. Se apenas dermos ao Snippy a sequência de referência sozinha, sem as anotações, ele não executará o SnpEff.</p>
<p>Temos uma referência anotada construída a partir do genoma de referência ancestral inferido de <em>M. tuberculosis</em> e da anotação do gene da estirpe H37Rv, então vamos usá-la neste caso.</p>

<h2>Mãos à obra: execute o Snippy</h2>
<ol>
  <li>
    <span class="tool" data-tool="toolshed.g2.bx.psu.edu/repos/iuc/snippy/snippy/4.6.0+galaxy0" title="Snippy tool" aria-role="button"><i class="fas fa-wrench" aria-hidden="true"></i> <strong>Snippy</strong> (<i class="fas fa-cubes" aria-hidden="true"></i> Galaxy version 4.6.0+galaxy0)</span> com os seguintes parâmetros
    <ul>
      <li><em>“Você selecionará um genoma de referência do seu histórico ou usará um índice embutido?”</em>: <code class="language-plaintext highlighter-rouge">Use um genoma do histórico e construa o índice</code></li>
      <li><em>“Use o seguinte conjunto de dados como sequência de referência”</em>: <code class="language-plaintext highlighter-rouge">Mycobacterium_tuberculosis_ancestral_reference.gbk</code></li>
      <li><em>“Leituras de extremidade única ou pareada”</em>: <code class="language-plaintext highlighter-rouge">Pareada</code></li>
      <li><em>“Selecione o primeiro conjunto de leituras”</em>: <code class="language-plaintext highlighter-rouge">fastp nos dados XX: saída de leitura 1</code></li>
      <li><em>“Selecione o segundo conjunto de leituras”</em>: <code class="language-plaintext highlighter-rouge">fastp nos dados XX: saída de leitura 2</code></li>
    </ul>
  </li>
  <li>
    <p>Em <em>“Parâmetros avançados”</em></p>
    <ul>
      <li><em>“Proporção mínima para evidência variante”</em>: <code class="language-plaintext highlighter-rouge">0.1</code> (Isso para que possamos ver possíveis variantes raras em nossa amostra)</li>
    </ul>
  </li>
  <li>
    <p>Em <em>“Seleção de saída”</em>, selecione o seguinte:</p>
    <ul>
      <li><em>“As variantes anotadas finais no formato VCF”</em></li>
      <li><em>“Um resumo simples separado por tabulações de todas as variantes”</em></li>
      <li><em>“Os alinhamentos no formato BAM”</em></li>
      <li>Desmarque quaisquer outros.</li>
    </ul>
  </li>
  <li>
    <p>Inspecione a saída VCF do Snippy</p>
    <blockquote>
      <p class="question">
        <i class="far fa-question-circle" aria-hidden="true"></i> Questão: Quantas variantes foram encontradas?
        <br>
        <i class="far fa-eye" aria-hidden="true"></i> Solução: 1098 variantes foram encontradas. Para contar as variantes, veja quantas linhas não comentadas estão na saída VCF do snippy ou quantas linhas (excluindo o cabeçalho) existem no arquivo VCF. Isso é bastante típico para _M. tuberculosis_.
      </p>
    </blockquote>
  </li>
</ol>
<h1>Filtragem adicional de variantes e criação de perfil de resistência a medicamentos</h1>
<p>Ainda não podemos confiar inteiramente nas variantes propostas. Em particular, existem regiões do genoma de <em>M. tuberculosis</em> para as quais é difícil mapear leituras de forma eficaz. Isso inclui os genes PE/PPE/PGRS, que são altamente repetitivos, e os IS (locais de sequência de inserção). Em segundo lugar, quando ocorre uma inserção ou deleção (indel) em nossa amostra em relação à referência, ela pode fazer com que variantes de nucleotídeo único aparentes, mas falsas, apareçam perto do indel. Finalmente, quando poucas leituras mapeiam para uma região do genoma de referência, seja por causa de uma deleção de sequência ou por causa de um alto conteúdo de GC na região genômica, não podemos ter certeza da qualidade da chamada de variante na região. O <code class="language-plaintext highlighter-rouge">TB Variant Filter</code> pode ajudar a filtrar variantes com base em uma variedade de critérios, incluindo os listados acima.</p>

<h2>Mãos à obra: execute o TB Variant Filter</h2>
<ol>
  <li>
    <span class="tool" data-tool="toolshed.g2.bx.psu.edu/repos/iuc/tb_variant_filter/tb_variant_filter/0.4.0+galaxy0" title="TB Variant Filter tool" aria-role="button"><i class="fas fa-wrench" aria-hidden="true"></i> <strong>TB Variant Filter</strong> (<i class="fas fa-cubes" aria-hidden="true"></i> Galaxy version 0.4.0+galaxy0)</span> com os seguintes parâmetros
    <ul>
      <li><em>“Arquivo VCF para filtrar”</em>: <code class="language-plaintext highlighter-rouge">snippy nos dados XX, dados XX e dados XX arquivo vcf de leituras mapeadas</code></li>
      <li><em>“Filtros para aplicar”</em>: Selecione <code class="language-plaintext highlighter-rouge">Filtrar variantes por região</code> e <code class="language-plaintext highlighter-rouge">Filtrar locais por profundidade de alinhamento de leitura</code>.</li>
    </ul>
  </li>
  <li>
    <p>Abra o novo arquivo VCF.</p>
    <blockquote>
      <p class="question">
        <i class="far fa-question-circle" aria-hidden="true"></i> Questão: Quantas das variantes originais foram filtradas?
        <br>
        <i class="far fa-eye" aria-hidden="true"></i> Solução: 131 (a diferença no número de linhas entre o arquivo vcf snippy e o arquivo vcf filtrado).
      </p>
    </blockquote>
  </li>
</ol>
<h1>Executar o TB Profiler e o TB Variant Report</h1>
<p>Agora que temos uma coleção de variantes de alta qualidade, podemos pesquisá-las em relação a variantes conhecidas por estarem associadas à resistência a medicamentos. A ferramenta <em>TB Profiler</em> faz isso usando um banco de dados de variantes com curadoria do Dr. Jody Phelan, da Escola de Higiene e Medicina Tropical de Londres. Ele pode fazer seu próprio mapeamento e chamada de variantes, mas também aceita leituras mapeadas no formato BAM como entrada.</p>
<p>Finalmente, o TB Variant Report usa o banco de dados eXplorer de anotação do genoma de <em>M. tuberculosis</em> do COMBAT-TB para anotar variantes em Mtb. Ele também usa a saída do <em>TB Profiler</em> e produz um relatório organizado que é fácil de navegar e pesquisar.</p>

<h2>Mãos à obra: execute o TB Profiler e o TB Variant Report</h2>
<ol>
  <li>
    <span class="tool" data-tool="toolshed.g2.bx.psu.edu/repos/iuc/tbprofiler/tb_profiler_profile/6.2.1+galaxy0" title="TB-Profiler profile tool" aria-role="button"><i class="fas fa-wrench" aria-hidden="true"></i> <strong>TB-Profiler profile</strong> (<i class="fas fa-cubes" aria-hidden="true"></i> Galaxy version 6.2.1+galaxy0)</span> com os seguintes parâmetros
    <ul>
      <li><em>“Tipo de arquivo de entrada”</em>: <code class="language-plaintext highlighter-rouge">BAM</code></li>
      <li><em>“Bam”</em>: <code class="language-plaintext highlighter-rouge">snippy nos dados XX, dados XX e dados X leituras mapeadas (bam)</code></li>
    </ul>
    <p>O <strong>TB Profiler</strong> produz 3 arquivos de saída, seu próprio arquivo VCF, um relatório sobre a amostra, incluindo suas prováveis linhagens e qualquer AMR encontrado. Há também um arquivo de resultados formatado em .json.</p>
  </li>
  <li>
    <p>Quando o <em>snippy</em> é executado com entrada no formato Genbank, ele coloca <code class="language-plaintext highlighter-rouge">GENE_</code> antes dos nomes dos genes na anotação VCF. Isso causa um problema para o <em>TB Variant report</em>, então precisamos editar a saída com sed.</p>
    <p><span class="tool" data-tool="toolshed.g2.bx.psu.edu/repos/bgruening/text_processing/tp_sed_tool/1.1.1" title="Text transformation with sed tool" aria-role="button"><i class="fas fa-wrench" aria-hidden="true"></i> <strong>Transformação de texto com ferramenta sed</strong> (<i class="fas fa-cubes" aria-hidden="true"></i> Galaxy version 1.1.1)</span> com os seguintes parâmetros:</p>
    <ul>
      <li><em>“Arquivo para processar”</em>: <code class="language-plaintext highlighter-rouge">TB Variant Filter nos dados XX</code></li>
      <li><em>“Programa SED”</em>: <code class="language-plaintext highlighter-rouge">s/GENE_//g</code></li>
    </ul>
  </li>
  <li>
    <span class="tool" data-tool="toolshed.g2.bx.psu.edu/repos/iuc/tbvcfreport/tbvcfreport/1.0.1+galaxy0" title="TB Variant Report tool" aria-role="button"><i class="fas fa-wrench" aria-hidden="true"></i> <strong>TB Variant Report</strong> (<i class="fas fa-cubes" aria-hidden="true"></i> Galaxy version 1.0.1+galaxy0)</span> com os seguintes parâmetros
    <ul>
      <li><em>“Entrada de VCF(s) de M.tuberculosis anotado(s) por SnpEff”</em>: <code class="language-plaintext highlighter-rouge">Transformação de texto nos dados XX</code></li>
      <li><em>“Relatório de resistência a medicamentos do TBProfiler (opcional)”</em>: <code class="language-plaintext highlighter-rouge">Perfil do TB-Profiler nos dados XX: Results.json</code></li>
    </ul>
  </li>
  <li>
    <p>Abra os arquivos html do relatório de variantes e de resistência a medicamentos.</p>
    <blockquote>
      <p class="question">
        <i class="far fa-question-circle" aria-hidden="true"></i> Questão: Quais foram as linhagens finais da amostra que testamos?
        <br>
        <i class="far fa-eye" aria-hidden="true"></i> Solução: A amostra que testamos pertence à linhagem 4, sublinhagem 4.4.1.1.
      </p>
    </blockquote>
  </li>
</ol>
<h1>Conclusão</h1>
<p>Neste tutorial, você aprendeu como executar uma análise de variante em uma amostra de _M. tuberculosis_. Você aprendeu como realizar o controle de qualidade em seus dados, mapear leituras para um genoma de referência, chamar variantes, filtrar variantes e criar o perfil de sua amostra para resistência a medicamentos. Você também aprendeu como usar o banco de dados COMBAT-TB eXplorer para anotar variantes e produzir um relatório organizado.</p>
<p>Esta é apenas uma breve introdução à análise de variantes em _M. tuberculosis_. Há muito mais que você pode aprender sobre este tópico. Por exemplo, você pode aprender como:</p>
<ul>
  <li>Usar diferentes ferramentas para mapeamento e chamada de variantes.</li>
  <li>Filtrar variantes usando diferentes critérios.</li>
  <li>Analisar variantes usando diferentes bancos de dados.</li>
  <li>Interpretar os resultados da análise de variantes.</li>
</ul>
<p>Espero que este tutorial tenha sido útil. Se você tiver alguma dúvida, sinta-se à vontade para perguntar.</p>

</body>
</html>
"""

# Generate PDF
output_path = "Analise_variantes_M_tuberculosis_iniciantes.pdf"
HTML(string=html_content, base_url="https://training.galaxyproject.org").write_pdf(output_path)

output_path


: 