fix: atualiza versão do Apache Tika em uso. #74

jvanz · 2024-03-21T21:48:16Z

Quando tentado rodar o Apache Tika versão 1.9.4 atualmente em uso no container para rodar o servidor o comando falha. Parece que o binário está corrompido. Por isso, esse commit atualiza o Apache Tika em use para a versão 2.9.1.

Fix #73

Quando tentado rodar o Apache Tika versão 1.9.4 atualmente em uso no container para rodar o servidor o comando falha. Parece que o binário está corrompido. Por isso, esse commit atualiza o Apache Tika em use para a versão 2.9.1. Signed-off-by: José Guilherme Vanz <jvanz@jvanz.com>

jvanz · 2024-03-21T21:49:13Z

AINDA PRECISO TESTAR ESSA ALTERAÇÃO PARA VER SE O EXTRATOR AINDA FUNCIONA. Então, não podemos fazer o merge dessa PR ainda. Se mais alguém pode testar, seria muito bom.

ogecece · 2024-03-22T17:44:43Z

Também não testei, mas desconfio que não dá certo, pois a partir de alguma versão o tika mudou o endpoint pra extrair o texto puro. Esse processamento deve estar extraindo o conteúdo do arquivo como html.

xxggabriel · 2024-05-28T20:35:43Z

Também não testei, mas desconfio que não dá certo, pois a partir de alguma versão o tika mudou o endpoint pra extrair o texto puro. Esse processamento deve estar extraindo o conteúdo do arquivo como html.

Testei o Apache Tika essa semana com a versão 2.9.2 e percebi que, durante a extração de texto, o conteúdo estava sendo extraído como XML. Para corrigir esse problema, adicionei o "Accept": "text/plain" na header do request da função _try_extract_text e funcionou corretamente.

A função da classe ApacheTikaTextExtractor ficou da seguinte forma:

def _try_extract_text(self, filepath: str) -> str:
    if self.is_txt(filepath):
        return self._return_file_content(filepath)
    with open(filepath, "rb") as file:

        headers = {
            "Content-Type": self._get_file_type(filepath),
            "Accept": "text/plain",
        }
        response = requests.put(f"{self._url}/tika", data=file, headers=headers)
        response.encoding = "UTF-8"
        return response.text

jvanz added the bug Something isn't working label Mar 21, 2024

jvanz self-assigned this Mar 21, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix: atualiza versão do Apache Tika em uso. #74

fix: atualiza versão do Apache Tika em uso. #74

jvanz commented Mar 21, 2024

jvanz commented Mar 21, 2024

ogecece commented Mar 22, 2024

xxggabriel commented May 28, 2024

fix: atualiza versão do Apache Tika em uso. #74

Are you sure you want to change the base?

fix: atualiza versão do Apache Tika em uso. #74

Conversation

jvanz commented Mar 21, 2024

jvanz commented Mar 21, 2024

ogecece commented Mar 22, 2024

xxggabriel commented May 28, 2024