Skip to content

RicardoRisson/Scrappers

Repository files navigation

Academic Data Scraper

Este repositório contém ferramentas de automação para coleta de dados acadêmicos das plataformas OpenAlex e arXiv. O objetivo é extrair metadados e resumos (abstracts) de publicações científicas para análises bibliométricas e processamento de linguagem natural (NLP).

📂 Estrutura do Projeto

O projeto segue uma organização modular para garantir a integridade dos dados e a persistência de logs:

.
├── data/           # Datasets gerados em formato .jsonl
├── log/            # Arquivos de log e monitoramento
├── scielo/         # Scripts de extração (ponto de execução)
│   ├── openalex_scraper.py
│   └── arxiv_scraper.py
└── requirements.txt

About

Academic Data Scraper para extração massiva de metadados e abstracts (Scholar/Scielo/arXiv). Otimizado para alta performance e baixo consumo de RAM (6GB) via escrita direta em JSONL e paginação por cursores. Focado em pesquisa bibliométrica e NLP, com suporte a datasets de médio porte (+120k registros).

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages