Skip to content

richecr/tcc

Repository files navigation

Meu TCC

Repositório para pesquisa do meu Trabalho de Conclusão de Curso.

Tasks:

  • Verifique se a biblioteca python-poppler é uma boa maneira de extrair texto de PDFs.
  • Extraia texto de PDF completo - Com todos os métodos de extração usados até agora.
    • PyMuPDF obteve melhores resultados.
  • Segementação dos textos por publicações.
    • Utilizado o pipe que tem nos PDF para a separação de atos.
    • Regex para encontrar padrões de quando se inicia um novo ato.
    • Separação de atos por entidades do documento.
    • PDF convertido em um JSON com os atos separados por entidades.

About

Repository for research of my Course Completion Paper.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published