Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Falta do TF-IDF featurizer para utilização dos modelos #1

Open
vitorcodesalittle opened this issue Aug 8, 2023 · 0 comments
Open

Comments

@vitorcodesalittle
Copy link

vitorcodesalittle commented Aug 8, 2023

Olá!

Estou interessado em usar os modelos apresentados nesse repositório para um estudo que estou fazendo, que visa aplicar técnicas de explicabilidade aos modelos. Para isso gostaria de utilizar os modelos da forma mais próxima à reportada no artigo.

Percebi que o transformador TF-IDF ajustado à base não está no repositório (até onde eu procurei). Acredito que sem ele seja impossível restituir os modelos que entendi se pretender compartilhar, pois os modelos devem ter sido ajustados de acordo com uma representação td-idf específica, sem a qual não é possível construir as entradas para os modelos exatamente da mesma forma que os modelos foram avaliados.

Perguntas:

  1. Teria como compartilhar o transformador mencionado? Caso tenha sido implementado com sklearn, acredito que se possa compartilhá-lo da mesma forma que os modelos. Ficaria feliz em ajudar nesse processo, se for do interesse de vcs.
  2. Caso não, teria como compartilhar os detalhes de pré-processamento (além dos encontrados no artigo)? Mais especificamente:
    • Pipeline de pre-processamento de texto usado, se presente (e.g. conversão para lowercase, remoção de tokens repetidos das sequência, remoção de caracteres especiais !, ?, ..., ...)
    • Se o pré-processamento e as características TF-IDF dos tokens foram extraídos de todo o dataset ou apenas da base de treino, e se é possível recuperar as bases de dados usadas para treino e teste.

Obrigado pelo esforço em compor esse dataset.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant