Century Classifier

Century Classifier é um classificador multiclasse de texto que determina a qual período um determinado texto pertence com base em suas características.

O Century Classifier é limitado a classificação de textos entre os séculos XV e XIX.

Foi construído utilizando representação TF-IDF e LinearSVC. Para o treinamento do classificador foi utilizado o Corpus Histórico do Português Tycho Brahe. Utilize apenas com textos em Língua Portuguesa.

A documentação do corpus pode ser encontrada neste repositório no arquivo Documentação do corpus

Este produto é parte da avaliação da disciplina Tópicos em Banco de Dados do programa de Pós-graduação da Universidade Federal da Bahia.

Streamlit

O classificador também está disponível online através da plataforma Streamlit.io no endereço Century Classifier, com uma interface bem mais amigável para utilização. Experimente

Uso

O repositório possui um codespace configurado, caso queira testar o classificador por esse método.

Para utilizar, abra o codespace (ou em sua máquina, caso tenha clonado o repositório para executar localmente) e no terminal digite a seguinte linha para construção do docker:

docker build -t century_classifier .

Depois de construído, você pode passar um texto por linha de comando. Para isso digite a seguinte linha no terminal e em seguida insira seu texto:

docker run --rm -it century_classifier python3 centuryclassifier.py

O repositório possui um script que testa o classificador em alguns textos de exemplo de diversos períodos. Para executar insira o seguinte no terminal:

docker run --rm -it century_classifier python3 centuryclassifier_ex.py

Contributing

Pull requests are welcome. For major changes, please open an issue first to discuss what you would like to change.

Please make sure to update tests as appropriate.

Créditos

Desenvolvido por: Laila Mota.

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
.devcontainer		.devcontainer
.github/workflows		.github/workflows
Century_classifier.ipynb		Century_classifier.ipynb
Dockerfile		Dockerfile
Documentação do corpus.pdf		Documentação do corpus.pdf
README.md		README.md
centuryclassifier.py		centuryclassifier.py
centuryclassifier_ex.py		centuryclassifier_ex.py
corpus_preprocessado.csv		corpus_preprocessado.csv
corpus_preprocessado_old.csv		corpus_preprocessado_old.csv
finalized_model.sav		finalized_model.sav
requirements.txt		requirements.txt
streamlit_app.py		streamlit_app.py
vectorizer.pickle		vectorizer.pickle

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Century Classifier

Streamlit

Uso

Contributing

Créditos

About

Releases

Packages

Languages

lailamt/century_classifier

Folders and files

Latest commit

History

Repository files navigation

Century Classifier

Streamlit

Uso

Contributing

Créditos

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages